자연어 처리1997

LSTM — 장단기 기억 네트워크

호크라이터와 슈미트후버가 장기 의존성 문제를 해결하는 RNN 구조를 제안

LSTM 셀 구조: 망각·입력·출력 게이트와 셀 상태 흐름 (Wikimedia Commons, CC BY-SA)

LSTM은 셀 상태(Cell State)와 게이트 메커니즘으로 중요한 정보는 오래 기억하고 불필요한 정보는 잊는 순환 신경망입니다. 1997년 원본 논문에서 입력·출력 게이트를 제안했고, 1999~2000년 Gers 등이 망각 게이트를 추가하여 현대적 LSTM이 완성되었습니다. 기존 RNN의 기울기 소실 문제를 해결하여 기계 번역, 음성 인식, 시계열 예측 등에서 2017년 Transformer 등장 전까지 시퀀스 모델의 표준이었습니다.

핵심 수식

망각 게이트

f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)

셀 업데이트

C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t

출력

h_t = o_t \odot \tanh(C_t)

핵심 개념

순환 신경망(RNN)

이전 시간 단계의 출력을 현재 입력에 다시 사용하는 신경망 — 시퀀스 데이터 처리의 기본

망각 게이트(Forget Gate)

셀 상태에서 어떤 정보를 버릴지 결정하는 시그모이드 게이트

셀 상태(Cell State)

정보를 장기간 전달하는 컨베이어 벨트 — LSTM의 핵심 구조

주요 인물

제

제프 호크라이터

LSTM 발명 (1997, 뮌헨 공과대학)

위

위르겐 슈미트후버

LSTM 공동 발명, 순환 신경망 연구의 선구자

영향 & 의의

시퀀스 데이터 처리의 표준이 되어 구글 번역, Siri, 주가 예측 등에 광범위하게 활용되었습니다. Transformer가 등장하기까지 20년간 NLP의 핵심 아키텍처였습니다.

AI 발전사

LSTM — 장단기 기억 네트워크

핵심 수식

핵심 개념

주요 인물

영향 & 의의

관련 항목