대규모 언어 모델2020

GPT-3 — 대규모 언어 모델

1750억 파라미터의 범용 언어 모델

GPT 아키텍처: 디코더 전용 Transformer 스택 (Wikimedia Commons)

GPT 아키텍처: 디코더 전용 Transformer 스택 (Wikimedia Commons)

GPT-3는 거대한 스케일의 언어 모델이 퓨샷 학습만으로 다양한 과제를 수행할 수 있음을 보여주었습니다. 프롬프트 엔지니어링이라는 새로운 패러다임을 열었습니다.

핵심 수식

다음 토큰 예측
P(wtw1,w2,,wt1)P(w_t | w_1, w_2, \ldots, w_{t-1})
Temperature 스케일링
Pi=ezi/Tjezj/TP_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}

핵심 개념

퓨샷 학습(Few-shot)

소수의 예시만으로 새로운 과제를 수행하는 능력

스케일링 법칙

모델 크기·데이터·컴퓨팅이 커질수록 성능이 예측 가능하게 향상

프롬프트 엔지니어링

적절한 입력 텍스트를 설계하여 원하는 출력을 유도하는 기술

주요 인물

톰 브라운
GPT-3 논문 1저자 (OpenAI)
샘 올트먼
OpenAI CEO, 대규모 모델 투자를 이끈 경영자

영향 & 의의

AI API 경제의 시작. 프로그래머가 아닌 사람도 자연어로 AI를 활용할 수 있게 되었으며, 이후 ChatGPT, Claude 등 대화형 AI의 직접적 토대가 되었습니다.

관련 항목