본문 바로가기
IT

Open AI의 ChatGPT 버전(시리즈) 정보 정리(Feat.RLHF)

by 파이프라인만들기 2023. 4. 7.

AI 업계에 큰 돌풍을 일으키고 있는 ChatGPT도 처음부터 놀라운 성능을 가졌던 것은 아닙니다. 이번 글에서는 Open AI의 ChatGPT 초기 버전인 GPT-1부터 가장 최신 버전인 GPT-4까지 정보를 정리했습니다. 그리고 중요한 RLHF 학습법도 간단하게 알아보겠습니다.

 

글의 순서는 다음과 같습니다.

  • Open AI의 GPT 시리즈(버전) 정리 및 비교
  • RLHF : Open AI의 GPT가 ChatGPT가 된 학습 방법

 

 

Open AI의 GPT 시리즈(버전) 정리 및 비교

 

GPT-1

  • 출시 년월 : 2018년 6월
  • 파라미터 수(개) : 1억 1천7백만
  • 특징
    1. 주요 학습 데이터 : BookCrawl
    2. 학습 방식 : Unsupervised Pre-training with Unlabeled data and Supervised fine-tuning with labeleddata
    3. 특정 Task를 위해 매번 Fine-tuning이 필요하며, 학습 데이터에 민감

 

GPT-2

  • 출시 년월 : 2019년 2월
  • 파라미터 수(개) : 15억 4천2백만
  • 특징
    1. 주요 학습 데이터 : WebText(800만 개의 문서, 40GB 용량)
    2. 학습 방식 : Unsupervised Pre-training and Zero shot Learning
    3. 메타 러닝(Meta learning)의 일종인 In-context-learning(사전학습 모델 Task에 대한 텍스트 인풋을 삽입)

 

GPT-3

  • 출시 년월 : 2020년 6월
  • 파라미터 수(개) : 1,750억
  • 특징
    1. 주요 학습 데이터 : CommonCrawl(Web, e-book, wiki 등 753.4 GB)
    2. 학습 방식 : Unsupervised Pre-training andZero shot, One shot, Few shot Learning
    3. 사람처럼 글 쓰기, 코딩, 번역, 요약 가능
    4. 예시를 통해 간접적으로 모델에 지시

 

GPT-3.5 (ChatGPT)

  • 출시 년월 : 2022년 11월
  • 파라미터 수(개) : 1,750억
  • 특징
    1. 주요 학습 데이터 : CommonCrawl(Web, e-book, wiki 등 753.4 GB)
    2. 학습 방식 : 인간 피드백 기반 강화학습( RLHF) 적용으로 답변 정확도와 안정성 급증
    3. GPT-3과 달리 직접적으로 대화 형태로 지시

 

GPT-4

  • 출시 년월 : 2023년 3월
  • 파라미터 수(개) : 비공개
  • 특징
    1. 모델 구조/크기, 하드웨어 정보, 데이터 및 모델 학습 방법 비공개
    2. 이미지 입력도 받을 수 있는 멀티모달(Multimodal) 기능 탑재

 

 

RLHF : Open AI의 GPT가 ChatGPT가 된 학습 방법

 

GPT의 성능은 버전이 업그레이드될수록 더욱 향상되었고, GPT-3 버전부터 인간에 가까운 언어 구사능력을 보여준다는 평가를 받게 되었습니다. 특히 사람과 대화하는 것처럼 느껴지는 GPT-3.5 버전에는 RLHF를 적용했습니다.

 

RLHF는 Reinforcement Learning with Human Feedback의 약자로 인간 피드백 기반 강화학습입니다. 즉, GPT 학습에 사람이 직접 개입한 학습법입니다. RLHF에 대해서 조금 더 자세하게 설명해 보겠습니다.

 

RLHF는 인간이 작성한 질문과 답변으로 학습시킨 다음, 모델(AI)이 주어진 질문에 대해 답변을 여러 개 생성하면 인간이 순위를 매겨서 추가 학습을 시킵니다.

 

그러면 모델(AI)은 인간이 더 높은 점수를 매긴 답변을 내놓는 방향으로 학습이 됩니다. 즉, 사용자의 의도와 니즈에 부합하는 답변을 생성할 수 있도록 강화 학습 되는 것입니다.

 

이렇게 GPT-3.5는 RLHF를 통해 최종적으로 생성되는 답변의 성능을 높였습니다. 그리고 이런 성능을 갖춘 GPT-3.5를 기반으로 대화형으로 개발된 서비스가 ChatGPT입니다.

 

댓글