대규모 언어 모델2022

ChatGPT & RLHF

인간 피드백 강화학습으로 대화형 AI 대중화

RLHF 파이프라인: SFT → 보상 모델 학습 → PPO 강화학습 (Wikimedia Commons, CC BY-SA)

ChatGPT는 GPT-3.5에 RLHF를 적용하여 자연스럽고 유용한 대화가 가능한 AI입니다. 출시 2개월 만에 1억 사용자를 돌파하며 AI 대중화의 전환점이 되었습니다.

PPO 목적함수

\mathcal{L}^{PPO} = \mathbb{E}\left[\min\left(r_t(\theta)\hat{A}_t,\; \text{clip}(r_t(\theta), 1\pm\epsilon)\hat{A}_t\right)\right]

RLHF

인간 피드백(순위 매기기)으로 보상 모델을 학습하고, 이를 기반으로 LLM을 정렬

보상 모델(Reward Model)

응답 품질을 점수화하는 모델 — 인간 선호 데이터로 학습

정렬(Alignment)

AI가 인간의 가치관과 의도에 맞게 행동하도록 조정하는 것

장

장 르웁(Long Ouyang)

InstructGPT/RLHF 논문 1저자

폴

폴 크리스티아노

RLHF 개념의 선구자, AI 안전 연구자

AI 역사상 가장 빠른 사용자 성장. '정렬(Alignment)' 문제가 학계를 넘어 사회적 의제로 부상했으며, AI 규제 논의를 가속화했습니다.

AI 발전사