[챗GPT 러닝데이] Transformer 모델 개요와 GPT3 모델 활용 주요 질의응답

[챗GPT 러닝데이] 중급 - Transformer 모델 개요와 GPT3 모델 활용 실습 세미나에 나왔던 주요 질의응답을 정리해봤습니다.

Q) 그런데 Chat GPT는 왜 hallucination 문제를 보이는건가요? 곧 해결될 사항일까요?

A) 할루시네이션 문제는 보통 학습 데이터의 영향을 받아서 그렇습니다. 잘못된 정보의 텍스트로 학습되어서 그럴수도 있고 정보가 없어 어쩔 수 없이 생성되는 경우도 있고요. 이러한 부분은 현재 프롬프트 작성하는 방법을 통해서 해결할 수도 있고 파인튜닝을 통해서 해결할 수 있는 것으로 알고 있습니다.

Q) Bart와 gpt 의 차이점도 궁금합니다

A) Bart는 Encoder-Decoder 구조의 모델이고 gpt는 Decoder 모델입니다.

Q) 작년에 '차근 차근히 생각해보자'라는 프롬프트?를 추가해서 추론 했더니 기존에 풀지 못했던 수학 관련 문제를 더 잘 풀었다는 것을 보았는데 이것이 어떻게 영향을 주었는지 궁금합니다!

A) Chain of Thought에 관련한 연구 이야기를 주신듯 합니다. 정답을 생성하기 전에 문제에 대한 풀이과정을 서술하도록 한 뒤에 정답을 낼 수 있도록 하는 것인데요. 풀이 과정의 서술이 좋을 수록 정답을 맞출 확률이 높은 것으로 알고 있습니다. 해당 연구에서는 이런 방식을 통해 수학 관련 문제에 대한 풀이 성능이 더 좋다고 이야기 합니다. 관련한 접근방법은 종종 Chat GPT를 통해서도 볼 수 있습니다. 질의를 했을 때 질의한 어떤 단어들에 대한 정의를 나열하면서 답을 하거나 하는 경우 Chain of Thought 접근이 들어갔을 것이라 예상하고 있습니다.

Q) GPT와 BERT의 pre-trained 모델을 같은 데이터로 학습시켜도, BERT는 생성ai가 아니기에 이 둘은 같은 아웃풋을 내뱉을 수 없는 걸까요?

A) 네, BERT와 GPT는 학습 목적이 다릅니다. 그렇기 때문에 BERT는 GPT와 같은 출력을 내기 어렵습니다. BERT가 텍스트 생성할 수 있도록 할 수는 있지만 출력한 결과가 GPT와 같을지는 잘 모르겠습니다.

Q) LM모델하고 토크나이저를 다른 모델 체크포인트로 부터 불러 오는것같은데...그렇게 해도되나요?

A) 해당 질문은 실습 내용과 관련이 되어있는 듯합니다. Ko-Alpaca-polyglot 모델은 polyglot-5.8b 모델을 파인튜닝한 모델입니다. 그렇기 때문에 polyglot-5.8b의 토크나이저와 호환이 가능하여 사용 가능합니다.

Q) Few-shot Learning이 요즘 많이 언급되는 프롬프트 엔지니어링의 일종이라고 볼 수 있을까요?

A) Few-shot Learning이 소개 되었기 때문에 프롬프트 엔지니어링이 나왔다고 보시는게 적절하지 않나 싶습니다. 프롬프트는 말 그대로 명령을 하기 위한 내용을 작성하는 것이고 이에 대한 예시를 추가하면서 few-shot이 됩니다. few-shot 예제를 추가할 때도 템플릿을 적용하여 prefix 토큰이 같이 붙을 수 있는데 prefix 단어를 선택하는 것도 일종의 프롬프트 엔지니어링 중 하나입니다.

Q) 앱 서비스에 인공지능 모델을 넣으려고 하는데 프레임워크는 어떻게 구성하셨는지 궁금합니다. 장고 또는 플라스크 쓰셨는지

A) 모델을 넣고자 할 때는 개발에 편하신 프레임워크를 선택하시면 됩니다. 플라스크 같은 경우는 간단한 코드만으로도 서빙이 가능하기 때문에 프로토타입하는데 많이 사용하는 것으로 알고 있습니다. 최근에는 FastAPI도 많이 활용하니 참고해주세요.

좋은 질문해주신 참여자분들과 친절한 답변 해주신 최태균님께 감사드립니다. 🍀

세미나 영상보기

📺 본 세미나의 녹화본을 보시려면 💁🏻 바로가기