이세돌과 겨룬 '알파고 리' 넘어섰다, NHN이 개발한 바둑AI '한돌'

조회수 2019. 1. 24. 10:15 수정

번역beta Translated by kaka i

닫기

번역중 Now in translation

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

닫기

국내 랭킹 5,4,3,2위 꺾고 신진서 9단과 대국 진행

23일, NHN 엔터테인먼트가 개발한 바둑 AI ‘한돌’이 신진서 9단과 대국을 펼친다. ‘한돌’은 2017년 초 개발을 시작해 2017년 12월 1.0 버전이 공개됐고, 이후 개선을 거듭하며 2018년 12월 한층 진보한 버전의 2.0 버전을 내놨다.

알파고 충격이 세계를 휩쓴 후, 많은 나라에서 바둑 AI 개발이 시작됐다. 미국에서는 익히 알려진 딥마인드가 알파고 시리즈를, 페이스북은 ‘엘프 오픈고’를 공개했다. 일본에서는 도쿄대와 일본 기원이 협력해 제작한 ‘딥젠고’, 중국에서는 텐센트가 ‘파인아트’를 개발했다. 한국에서도 고등과학원이 만든 ‘바둑이’ 돌바람네트웍스의 ‘돌바람’, 카카오브레인의 ‘오지고’ 등이 만들어졌다.

세계적으로 가장 유명한 바둑 AI ‘알파고’를 개발한 딥마인드는 이세돌 9단과 겨뤘던 ‘알파고 리’보다 더 강력해진 ‘알파고 마스터’를 이용, 중국의 유명 바둑기사 커제를 3:0으로 꺾었다. 이후 딥마인드는 사람의 기보를 사용하지 않으며 일본 장기와 체스에도 응용이 가능한 ‘알파고 제로’를 발표했다.

한돌 개발 역시 2016년 있었던 이세돌과 알파고의 대국을 기점으로 결정됐다. 한돌을 개발한 NHN 기술연구센터 박근한 센터장은 “많은 AI 기술이 일반인들과 동떨어진, 특별한 사용자들을 대상으로 개발되고 있는데 우리가 이 기술을 잘 개발한다면 더 많은 사람들이 AI를 이용한 고급 서비스 혜택을 누릴 수 있을 것이라 생각했다”라고 한돌 개발 동기를 밝혔다.

NHN 기술연구센터 박근한 센터장

한돌의 알고리즘과 작동 방식

한돌은 MCTS 알고리즘을 사용하는 AI다. MCTS는 내 턴에서 나에게 제일 좋은 수, 상대 턴에서 상대가 제일 좋은 수를 번갈아가며 시뮬레이션 해 좋은 수를 찾는 방법을 뜻한다. 한돌은 MCTS 알고리즘에 정책망과 가치망, 롤아웃을 더해 최선의 다음 수를 찾아낸다.

‘정책망’은 다음 후보 수를 찾아내는 딥러닝 모델이며, 가치망은 현재 수에서 승리 확률을 구하는 모델이다. 정책망이 바둑의 현재 상태를 입력 받아 도출한 다음 후보 수를 가치망에 대입하면 가치망이 각 후보 수에 따른 승리 확률을 찾아낸다.

신진서 9단과 대국을 펼친 한돌 2.0은 1년 전 개발된 한돌 1.0에 비해 인간의 영향력이 훨씬 줄어든 버전이다. 한돌 1.0에는 특정 패턴의 돌이 놓이면 인간이 미리 만들어 둔 패턴으로 돌을 두는 ‘롤아웃’이 사용됐는데, 한돌 2.0에는 롤아웃이 빠져 AI가 완전히 랜덤한 상태의 기보를 학습하도록 했다.

기력을 측정하는 ELO 시스템을 기준으로 인간 9단은 약 3500 정도의 기력 수준을 갖고 있다. 이창율 NHN 기술연구센터 게임AI팀장은 “한돌 0.1은 2500, 1.0은 3500 수준으로 이미 인간 9단과 대국이 가능한 수준을 갖췄으며, 한돌 2.0 초기 버전은 4000 정도의 기력을 가졌다”라고 밝혔다.

이창율 NHN 기술연구센터 게임AI팀장

한돌, 고단 AI는 물론 기력별 AI, 프로기사들의 특색 살린 기풍 다양화까지

NHN은 서비스중인 ‘한게임 바둑’에 한돌을 적극 도입해 다양한 콘텐츠를 제공할 예정이다. ‘한돌 9단’은 한게임 바둑 9단과 대국을 진행하는 AI로 일반 유저들이 언제든 고단들의 대국을 관전할 수 있게 해 준다. ‘기력별 한돌 인공지능 대국’은 이용자가 자신의 기력과 맞는 한돌과 대국을 펼칠 수 있는 기능이며, 대국 중에는 ‘한돌 찬스’를 이용해 다음 수에 대한 강력한 힌트를 얻을 수도 있다. 대국이 종료되면 ‘한돌 승률 그래프’를 이용해 승착/패착 원인과 승부의 흐름을 복기할 수 있다.

송은영 GB기획팀장은 “앞으로 19줄 바둑에만 제공되는 한돌을 9줄 바둑에 적용하는 것은 물론, 덤.치수 설정과 접바둑도 제공할 예정이며 이세돌 풍, 이창호 풍 등 각 프로 기사들의 기풍을 느낄 수 있도록 기풍도 다양화 할 예정이다. 또한 바둑 저변 확대를 위해 교육 콘텐츠와 접목하는 것도 계획중이다.”라고 밝혔다.

송은영 NHN GB 기획팀장

질의응답

AI를 이용한 어뷰징이 있을 수 있는데. 이에 대한 대비책은?

송은영: 이미 어뷰징은 만연해 있는 걸로 안다. 우리는 어뷰징을 막을 수 있는 패턴들을 연구해 걸러내는 방법을 사용해야 할 것 같다.

알파고 제로와 한돌의 수준 차이는 어느 정도인가. 한돌이 바둑 외 게임 산업에는 어떻게 활용될 수 있을까?

이창율: 단순 비교하기엔 무리가 있다고 보지만 알파고 제로와는 아직 격차가 있을 것 같다. AI가 학습을 계속하다보면 정체되는 구간이 있는데, 알파고 제로도 아마 그런 구간 있었을 것이다. 그래서 시간 지나면 격차는 줄어들 것이라 본다.

이렇게 얻은 게임과 관련된 기술은 직접적으로는 장기같은 게임에 사용할 수 있다. 조금 더 고민한다면 퍼즐게임에도 활용이 가능하다. 바둑 AI에 쓰였던 기술을 좀 더 일반화 된 강화 학습에도 적용하는 것을 고려하고 있다.

박근한: 게임 이외에 적용할 분야를 찾는 게 현재 큰 이슈다. 알파고도 신약 개발 등에 응용되고 있는 것으로 아는데, 우리도 다양한 분야를 찾을 예정이다.

한돌은 현재 유저를 대상으로 한 서비스에 사용되고 있는데, 프로기사들의 대국에도 도입될 수 있나?

송은영: 현재 바둑TV에 돌바람이 승률을 실시간으로 계산해 내보내고 있는데, 우리도 적절한 서비스를 잘 만들어서 제공할 의향이 있다.

ELO의 인간 9단은 누구인가?

이창율: 인간 9단의 기력 3500은 GO레이팅이라는 서비스 기준으로 책정했다. GO레이팅 기준으로 신진서 9단이 3600정도를 기록하고 있다.

한돌 2.0과 1.0의 차이는 자가대국 여부로 인한 것인가, 아니면 다른 기술적 차이를 가지고 있나. 한돌이 구동되는 하드웨어 사양은 어떻게 되나.

이창율: 한돌 버전은 정확한 데이터를 얼마나 잘 만들어내느냐 차이에서 온다. 기술적으로 바둑 AI의 기력이 높아지려면 기본적인 모델의 성능이 높아져야 하지만, 얼마나 많이 시뮬레이션 하느냐 차이도 크다. 엔지니어링 부분도 많은 차이가 있다.

박근한: 당연히 알파고 같은 AI에 비해서는 훨씬 낮은 사양과 서버 수준에서 구동한다. 우리가 집중한 것은 낮은 사양과 서버를 가지고 얼마나 효율적으로 기력을 높일 수 있느냐였다.

어느정도 규칙을 설정한 상태에서 학습하는 AI가 있고, 무규칙 상태에서 학습하는 AI가 있는 것으로 아는데 한돌은 어느 쪽인가.

이창율: 최근 사이언스지에 알파고 제로에 대해 게재된 적이 있다. 알파고 제로는 체스와 일본 장기, 바둑에도 일반적으로 적용할 수 있다. 한돌은 수가 규칙에 맞는 것인지, 이것이 집이 맞는 지 등 기본적인 규칙이나 돌의 모양새는 판단해 줘야 학습이 가능하다. 가장 기본적인 입력과 규칙은 만들어줘야 한다고 보면 된다.

프로기사 중 5위, 4위, 3위는 모두 불계승을 거뒀고, 박정환 9단에게는 2.5집승을 기록했다. 오늘 승부는 어떻게 예측하나?

송은영: 박정환 프로가 끝까지 조마조마한 경기를 펼쳤다. 오늘도 2.5집 승 정도 예상한다.

박근한: 최근 신진서 9단이 AI를 이긴 적이 있어서 승부가 어떻게 될 지 관심있게 지켜보고 있다.

이창율: 직접 개발한 개발자로써 버그만 안 났으면 하는 바람을 갖고 있다. (웃음)

23일, 한돌과 대국을 펼치는 신진서 9단

이 콘텐츠에 대해 어떻게 생각하시나요?

공유 신고

디스이즈게임