대규모 언어 모델2023
멀티모달 AI (GPT-4V, Gemini)
텍스트, 이미지, 오디오를 통합 처리하는 AI
Vision Transformer(ViT): 이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력 (Wikimedia Commons, CC BY-SA)
멀티모달 AI는 여러 종류의 데이터를 동시에 이해하고 생성합니다. AI가 인간처럼 다중 감각을 갖추기 시작한 시점입니다.
핵심 수식
크로스 어텐션
핵심 개념
Vision Encoder
이미지를 토큰/패치 임베딩으로 변환하는 인코더 (ViT 등)
크로스 모달 어텐션
서로 다른 모달리티(텍스트·이미지) 간의 관계를 계산
인스트럭션 튜닝
다양한 모달리티의 지시사항을 따르도록 미세 조정
주요 인물
O
OpenAI 팀
GPT-4V — 최초의 상용 멀티모달 LLM
G
Google DeepMind
Gemini — 네이티브 멀티모달 아키텍처
영향 & 의의
AI가 텍스트만이 아닌 시각, 청각까지 이해하게 되면서 활용 범위가 폭발적으로 확장. 의료 영상 분석, 문서 이해, 접근성 도구 등 새로운 응용이 쏟아졌습니다.