강화학습2016

AlphaGo — AI가 인간을 이기다

딥마인드의 AlphaGo가 바둑 세계 최정상급 기사 이세돌 9단을 4:1로 격파

이세돌(흑) vs AlphaGo(백) — 역사적 제1국 기보 (Wikimedia Commons, CC BY-SA)

AlphaGo는 딥러닝(정책 네트워크 + 가치 네트워크)과 몬테카를로 트리 탐색(MCTS)을 결합하여, 경우의 수가 우주의 원자 수보다 많은 바둑에서 세계 최정상급 기사를 이겼습니다. 이후 AlphaGo Zero는 인간 기보 없이 자기 대전만으로 AlphaGo를 100:0으로 이기며, 강화학습의 잠재력을 증명했습니다.

핵심 수식

Q-학습

Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]

핵심 개념

강화학습(RL)

에이전트가 환경과 상호작용하며 보상을 최대화하는 정책을 학습하는 기법

정책 네트워크(Policy Network)

현재 상태에서 어떤 행동을 할지 확률 분포를 출력하는 신경망

몬테카를로 트리 탐색(MCTS)

무작위 시뮬레이션으로 수를 탐색하여 최선의 수를 찾는 알고리즘

주요 인물

데

데미스 하사비스

딥마인드 CEO, AlphaGo 프로젝트 총괄

데

데이비드 실버

AlphaGo 핵심 연구자, 강화학습 대가

이

이세돌

바둑 9단, 역대 최다 국제대회 우승 기사. AlphaGo와 역사적 대국

영향 & 의의

AI가 인간의 직관이 필요하다고 여겨졌던 영역을 정복한 상징적 사건. 강화학습 연구 붐을 일으켰으며, 이후 RLHF(ChatGPT), 로보틱스, 게임 AI, 약물 설계(AlphaFold) 등으로 확장되었습니다.

AI 발전사

AlphaGo — AI가 인간을 이기다

핵심 수식

핵심 개념

주요 인물

영향 & 의의

관련 항목