자연어 처리2017

트랜스포머 — Attention Is All You Need

셀프 어텐션 기반의 새로운 아키텍처를 발표

Transformer 아키텍처: 'Attention Is All You Need' 논문의 인코더-디코더 구조 (Wikimedia Commons)

Transformer 아키텍처: 'Attention Is All You Need' 논문의 인코더-디코더 구조 (Wikimedia Commons)

트랜스포머는 RNN 없이 셀프 어텐션만으로 시퀀스를 처리합니다. 각 토큰이 다른 모든 토큰과의 관계를 동시에 계산하여 병렬 처리가 가능하고, 장거리 의존성을 잘 포착합니다.

핵심 수식

스케일드 닷-프로덕트 어텐션
Attention(Q,K,V)=softmax ⁣(QKTdk)V\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V
포지셔널 인코딩
PE(pos,2i)=sin ⁣(pos100002i/d)PE_{(pos,2i)} = \sin\!\left(\frac{pos}{10000^{2i/d}}\right)

핵심 개념

셀프 어텐션

시퀀스 내 모든 토큰 쌍의 관련도를 동시에 계산하는 메커니즘

멀티헤드 어텐션

여러 개의 어텐션을 병렬로 수행하여 다양한 관계를 포착

포지셔널 인코딩

순서 정보가 없는 어텐션에 위치 정보를 주입하는 기법

주요 인물

아쉬쉬 바스와니
Transformer 논문 1저자 (Google Brain)
노암 샤지어(Noam Shazeer)
논문 시니어 저자, MoE 등 후속 연구

영향 & 의의

현대 AI의 근간. GPT, BERT, T5 등 거의 모든 대형 모델이 트랜스포머 기반이며, NLP를 넘어 비전(ViT), 오디오, 코드까지 확장되었습니다.

관련 항목