시사정보 큐레이션/ICT·녹색·BT·NT外

구글 바둑프로그램 알파고,강화학습으로 강력해져…범용 AI의 시작

배셰태 2017. 5. 24. 17:09

알파고는 어떻게 강해졌나…"자신 스승삼아 셀프대국 무한 반복"

연합뉴스 2017.05.24 우전<중국 저장성>=정주호 특파원

http://www.yonhapnews.co.kr/bulletin/2017/05/24/0200000000AKR20170524138500089.HTML?input=1195m


기존 버전은 3점차 핸디캡…연산능력 줄이고 알고리즘 효율화 초점

허사비스 "강화학습으로 강력해져…알파고는 범용 인공지능의 시작"

 

구글의 인공지능(AI) 바둑프로그램 알파고가 1년 사이 자신을 스승으로 삼아 스스로 학습하는 과정을 통해 종전의 버전과 3점 접바둑을 둘 정도로 강력해진 것으로 나타났다.

 

알파고 개발사인 구글 딥마인드의 데미스 허사비스 최고경영자(CEO)는 24일 중국 저장(浙江)성 우전(烏鎭) 인터넷 국제컨벤션센터에서 열린 '인공지능의 미래 포럼'에 참석, 알파고의 강화 과정을 이 같이 설명했다.

 

허사비스 CEO는 "3년전 알파고 개발에 나설 때 바둑을 두는 전략게임으로 설계했지만 궁극적으로는 알파고를 통해 인공지능을 범용할 가능성을 염두에 뒀다"며 이에 따라 스스로 학습을 할 수 있는 시스템을 만드는 것에 그 초점이 맞춰졌다고 설명했다.

 

전날 알파고와 커제(柯潔) 9단의 첫 대국에서 알파고가 압도적인 기량을 선보인 데 대해 알파고가 인간의 기보를 참고한 '지도 학습'보다는 스스로 바둑을 두며 최적의 전략을 깨달아가는 '강화학습'에 집중한 것을 그 배경으로 봤다.

 

작년 3월 이세돌 9단과 겨뤘던 인공지능은 '알파고 이세돌', 올초 프로기사들과 60연승을 거두고 커제 9단과 맞서고 있는 인공지능은 '알파고 마스터' 버전으로 명명됐다.

 

데이빗 실버 딥마인드 리서치 사이언티스트 겸 선임프로그래머는 알파고의 훈련 과정을 구체적으로 설명하며 알파고 마스터 버전은 알파고 이세돌 버전에 3점의 핸디캡을 줘도 될 정도로 강력하게 진화했다고 전했다.

 

이세돌 버전은 판후이(樊麾) 6단과 겨뤄 5대 0 승리를 거뒀던 판후이 버전과 3점의 격차가 나고, 판후이 버전은 다시 아마 6단의 실력을 가진 온라인 바둑게임 크레이지 스톤과 4점의 핸디캡을 받아야 한다는 것이다.

 

바둑에서 3점 차는 골프에서 프로선수와 보기 플레이어의 실력 차이와 비교할 수 있을 정도의 압도적인 기량 차이라고 김성용 9단은 부연했다.

 

구글의 설명에 따르면 알파고는 바둑의 엄청난 복잡성을 해결하기 위해 '지도학습'과 '강화학습'을 결합한 새로운 기계학습 기법을 채택했다.

 

지도학습 과정에서는 바둑판에 돌이 놓인 각 위치를 '질문'으로 만들고 특정 수를 가지고 '해답'을 제시하게 된다. 강화학습은 '셀프 대국'을 통해 예측을 정확성을 높이면서 수를 선택하는 결정을 하게 된다.

 

데미스 허사비스 딥마인드 CEO[우전=연합뉴스]

 

새로운 버전으로 업그레이드된 알파고는 셀프대국으로 스스로 대결을 하고 이를 다음 대국을 위한 훈련 데이터로 활용하는 과정을 반복하면 기력을 '바둑의 신' 경지에 올릴 정도로 키웠다.

 

이런 훈련은 딥마인드가 설계한 '정책망'과 '가치망'의 선택에 의해 이뤄진다.

 

<중략>

 

데이빗 실버 알파고 개발 프로그래머[우전=연합뉴스]

 

<중략>

 

커제 9단과 알파고의 대국[EPA=연합뉴스]