자연어 처리2018

BERT — 양방향 사전학습

마스크드 언어 모델링 기반의 사전학습 기법

BERT: 양방향 인코더 — 마스크된 토큰을 좌우 문맥으로 동시 예측 (Wikimedia Commons)

BERT: 양방향 인코더 — 마스크된 토큰을 좌우 문맥으로 동시 예측 (Wikimedia Commons)

BERT는 문장의 양방향 문맥을 동시에 이해하는 사전학습 모델입니다. 일부 단어를 마스킹하고 예측하는 방식으로 학습하며, 파인튜닝을 통해 다양한 NLP 과제에서 최고 성능을 달성했습니다.

핵심 수식

마스크드 언어 모델링
P(wiw1,,wi1,[MASK],wi+1,,wn)P(w_i | w_1, \ldots, w_{i-1}, \texttt{[MASK]}, w_{i+1}, \ldots, w_n)

핵심 개념

마스크드 언어 모델링(MLM)

문장에서 일부 토큰을 가리고 예측하는 사전학습 과제

사전학습 + 파인튜닝

대규모 범용 데이터로 학습 후, 특정 과제에 맞게 미세 조정

양방향 문맥

마스크 위치의 좌우 문맥을 동시에 참조 (GPT의 단방향과 대비)

주요 인물

제이콥 데블린
BERT 논문 1저자 (Google AI Language)

영향 & 의의

NLP의 '사전학습 → 파인튜닝' 패러다임을 확립. 11개 NLP 벤치마크를 동시에 갱신하며, 이후 RoBERTa, ALBERT 등 수많은 변형이 등장했습니다.

관련 항목