대규모 언어 모델2022

ChatGPT & RLHF

인간 피드백 강화학습으로 대화형 AI 대중화

RLHF 파이프라인: SFT → 보상 모델 학습 → PPO 강화학습 (Wikimedia Commons, CC BY-SA)

RLHF 파이프라인: SFT → 보상 모델 학습 → PPO 강화학습 (Wikimedia Commons, CC BY-SA)

ChatGPT는 GPT-3.5에 RLHF를 적용하여 자연스럽고 유용한 대화가 가능한 AI입니다. 출시 2개월 만에 1억 사용자를 돌파하며 AI 대중화의 전환점이 되었습니다.

핵심 수식

PPO 목적함수
LPPO=E[min(rt(θ)A^t,  clip(rt(θ),1±ϵ)A^t)]\mathcal{L}^{PPO} = \mathbb{E}\left[\min\left(r_t(\theta)\hat{A}_t,\; \text{clip}(r_t(\theta), 1\pm\epsilon)\hat{A}_t\right)\right]

핵심 개념

RLHF

인간 피드백(순위 매기기)으로 보상 모델을 학습하고, 이를 기반으로 LLM을 정렬

보상 모델(Reward Model)

응답 품질을 점수화하는 모델 — 인간 선호 데이터로 학습

정렬(Alignment)

AI가 인간의 가치관과 의도에 맞게 행동하도록 조정하는 것

주요 인물

장 르웁(Long Ouyang)
InstructGPT/RLHF 논문 1저자
폴 크리스티아노
RLHF 개념의 선구자, AI 안전 연구자

영향 & 의의

AI 역사상 가장 빠른 사용자 성장. '정렬(Alignment)' 문제가 학계를 넘어 사회적 의제로 부상했으며, AI 규제 논의를 가속화했습니다.

관련 항목