자연어 처리2017

트랜스포머 — Attention Is All You Need

셀프 어텐션 기반의 새로운 아키텍처를 발표

Transformer 아키텍처: 'Attention Is All You Need' 논문의 인코더-디코더 구조 (Wikimedia Commons)

트랜스포머는 RNN 없이 셀프 어텐션만으로 시퀀스를 처리합니다. 각 토큰이 다른 모든 토큰과의 관계를 동시에 계산하여 병렬 처리가 가능하고, 장거리 의존성을 잘 포착합니다.

스케일드 닷-프로덕트 어텐션

\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V

포지셔널 인코딩

PE_{(pos,2i)} = \sin\!\left(\frac{pos}{10000^{2i/d}}\right)

셀프 어텐션

시퀀스 내 모든 토큰 쌍의 관련도를 동시에 계산하는 메커니즘

멀티헤드 어텐션

여러 개의 어텐션을 병렬로 수행하여 다양한 관계를 포착

포지셔널 인코딩

순서 정보가 없는 어텐션에 위치 정보를 주입하는 기법

아

아쉬쉬 바스와니

Transformer 논문 1저자 (Google Brain)

노

노암 샤지어(Noam Shazeer)

논문 시니어 저자, MoE 등 후속 연구

현대 AI의 근간. GPT, BERT, T5 등 거의 모든 대형 모델이 트랜스포머 기반이며, NLP를 넘어 비전(ViT), 오디오, 코드까지 확장되었습니다.

AI 발전사