대규모 언어 모델2022
ChatGPT & RLHF
인간 피드백 강화학습으로 대화형 AI 대중화
RLHF 파이프라인: SFT → 보상 모델 학습 → PPO 강화학습 (Wikimedia Commons, CC BY-SA)
ChatGPT는 GPT-3.5에 RLHF를 적용하여 자연스럽고 유용한 대화가 가능한 AI입니다. 출시 2개월 만에 1억 사용자를 돌파하며 AI 대중화의 전환점이 되었습니다.
핵심 수식
PPO 목적함수
핵심 개념
RLHF
인간 피드백(순위 매기기)으로 보상 모델을 학습하고, 이를 기반으로 LLM을 정렬
보상 모델(Reward Model)
응답 품질을 점수화하는 모델 — 인간 선호 데이터로 학습
정렬(Alignment)
AI가 인간의 가치관과 의도에 맞게 행동하도록 조정하는 것
주요 인물
장
장 르웁(Long Ouyang)
InstructGPT/RLHF 논문 1저자
폴
폴 크리스티아노
RLHF 개념의 선구자, AI 안전 연구자
영향 & 의의
AI 역사상 가장 빠른 사용자 성장. '정렬(Alignment)' 문제가 학계를 넘어 사회적 의제로 부상했으며, AI 규제 논의를 가속화했습니다.