대규모 언어 모델2023

멀티모달 AI (GPT-4V, Gemini)

텍스트, 이미지, 오디오를 통합 처리하는 AI

Vision Transformer(ViT): 이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력 (Wikimedia Commons, CC BY-SA)

Vision Transformer(ViT): 이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력 (Wikimedia Commons, CC BY-SA)

멀티모달 AI는 여러 종류의 데이터를 동시에 이해하고 생성합니다. AI가 인간처럼 다중 감각을 갖추기 시작한 시점입니다.

핵심 수식

크로스 어텐션
CrossAttn(Qtext,Kimg,Vimg)\text{CrossAttn}(Q_{\text{text}}, K_{\text{img}}, V_{\text{img}})

핵심 개념

Vision Encoder

이미지를 토큰/패치 임베딩으로 변환하는 인코더 (ViT 등)

크로스 모달 어텐션

서로 다른 모달리티(텍스트·이미지) 간의 관계를 계산

인스트럭션 튜닝

다양한 모달리티의 지시사항을 따르도록 미세 조정

주요 인물

O
OpenAI 팀
GPT-4V — 최초의 상용 멀티모달 LLM
G
Google DeepMind
Gemini — 네이티브 멀티모달 아키텍처

영향 & 의의

AI가 텍스트만이 아닌 시각, 청각까지 이해하게 되면서 활용 범위가 폭발적으로 확장. 의료 영상 분석, 문서 이해, 접근성 도구 등 새로운 응용이 쏟아졌습니다.

관련 항목