컨텐츠 뷰 본문

트럼프 입에서 한국말 ‘술술’…전세계를 놀라게 한 한국인

기술 하나로 ‘한류 스타’ 소환하는 이 사람 정체는
프로필 사진
jobsN 작성일자2018.07.17. | 536,364 읽음
네오사피엔스 김태수 대표
억대 연봉 대신 꿈 택한 엔지니어
성대모사하듯 목소리 특징 학습

“굿모닝! 이제 출근할 시간이에요, oo씨."


그룹 엑소의 열혈 팬인 A씨는 소원이 있다. 아침 잠에서 깨어날 때 좋아하는 카이가 말을 걸어주는 것이다. 그리고 잠이 깰 때까지 카이와 이야기를 나누고 싶다. 그의 꿈을 이뤄줄 수 있는 가능성을 가진 기계가 있다. 바로 머리맡에 둔 인공지능(AI) 스피커다. '당장 카이와 대화가 가능한가'라고 물으면 답은 '아니요'다.


그러나 곧 그날이 온다고 자신 있게 말하는 사람은 있다. 바로 김태수(39) 네오사피엔스 대표다. 그는 대학 시절부터 지금까지 20여 년간 ‘음성’ 하나만 판 엔지니어다. 네오사피엔스 기술의 핵심은 특정 목소리를 학습해 그 목소리로 다양한 음성을 만들어내는 것이다. 예컨대 도널드 트럼프 미국 대통령의 영어 음성을 학습하면 같은 목소리로 영어는 물론 한국어 음성도 만들어 낼 수 있다. 얼마 전 이를 시연한 영상이 유튜브에 공개돼 화제가 됐다.

네오사피엔스가 음성합성 AI 기술을 이용해 도널드 트럼프 미국 대통령이 한국어로 말하는 영상을 만들었다.

출처 : Icepick.AI · 유튜브

특정인 목소리만 뽑는 기술’부터 ‘목소리 학습’까지


그는 머신러닝을 활용한 음성합성 분야 선구자다. 카이스트 대학원 시절부터 LG전자, 퀄컴을 거치면서 10년 이상 이 분야만 팠다. LG전자에서는 주변 소음을 없애고 선명한 목소리만 전달하는 기술을 스마트폰에 이식하는 '업적'을 이뤘다. 폴 제이콥스 당시 퀄컴 회장이 2013년 국제전자제품박람회(CES)에서 소개한 ‘보이스 액티베이션(Voice Activation)’ 기능도 그의 작품이다. 웨이크 업 콜은 스마트폰을 건드리지 않고도 목소리 하나로 깨우는 기술로, 오늘날 AI 스피커에 필수적으로 들어간다.


“LG전자에 입사할 당시만 해도 음성 분야는 제대로 인정을 받지 못했던 때였어요. 제가 연구했던 분야를 소개하니 상당히 흥미롭다는 반응이었어요. 당시 백우현 최고기술책임자(CTO)의 지원사격을 받아 개발했던 기술이 지금 대부분의 스마트폰에 들어가게 됐죠.”

김태수 네오사피엔스 대표

출처 : jobsN

2017년 네오사피엔스라는 회사를 차리며 들고 나온 것은 그의 경험을 기반으로 완성한 ‘아이스픽 AI(Icepick.AI)’이라는 기술이다. 영어도 하고 한국말도 할 줄 아는 AI가 특정인의 목소리를 학습한 뒤 이 사람과 비슷한 말투로 음성을 내보내는 것이 아이스픽 AI의 골자다.


“성대모사와 비슷한 개념이에요. 남을 잘 따라 하는 사람들을 보면 그 사람의 특징을 잘 골라내서 계속 연습을 하잖아요. AI는 사람의 음성을 듣고 그 특징을 빠르게 잡아낸 다음 최대한 비슷한 방식으로 음성을 내보냅니다. 에디슨이 축음기를 발명한 이후 단 한 번도 혁신이 없었던 분야에 출사표를 낸 것이나 다름 없어요.”


10분 녹음하면 AI가 동화책 한 권 읽어줘


김 대표의 목표는 명료하다. ‘목소리의 상품화'다. 목소리를 상품으로 만들기 위한 유일한 방법은 사람이 수동으로 녹음을 것 밖에 없다. 책 한 권을 녹음하려면 말 그대로 책 한 권을 소리 내서 읽어야 한다. 아이스픽 AI를 이용하면 녹음에 필요한 절대적인 시간이 획기적으로 줄어든다. 10분 정도만 목소리를 녹음하면 AI가 특징을 학습해 동화책 한 권 분량의 책을 자동으로 읽어줄 수 있다.


“목소리를 필요로 하는 시장 규모가 전 세계적으로 5조원에 달한다는 조사 결과가 있어요. 이 시장의 성장률은 연 10%대에 달하고요. 동영상을 만들려고 해도 목소리가 반드시 필요합니다. 눈으로만 집중하기 어려운 상황에서 목소리에 대한 수요는 커질 수밖에 없다고 생각합니다.”


음성을 활용할 수 있는 분야는 많다. 로이터에 따르면 '오디오 북' 시장은 3년 연속 연평균 20%대 성장률을 이어가고 있다. 아마존, 구글 등은 오디오 북 시장에 적극적으로 뛰어들고 있다. 우리나라에서도 네이버가 음성 기술을 이용해 오디오 콘텐츠를 손쉽게 만들고 공유하는 서비스를 제공하고 있고 KT도 개그맨 박명수의 음성을 합성해 AI스피커 '기가 지니'에서 퀴즈쇼 '박명수를 이겨라'를 하고 있다. SK텔레콤도 AI ‘누구(NUGU)’에 연예인 음성 서비스를 적용하는 것을 SM엔터테인먼트와 함께 연구 중이다.


“우리 기술은 언어에 관계없이 통·번역을 가능하게 해 준다는 점이 특징입니다. 한류스타가 각 나라의 팬들을 위해 그 나라 언어로 팬들에게 얘기하는 장면이 가능해지는 것이죠. 아직 번역한 말투가 부자연스럽다는 지적도 듣고 있어요. 더 연구해서 한국인이 유창하게 영어를 하는 것처럼 만들어야죠.”

김태수 네오사피엔스 대표

출처 : jobsN

잘 나가던 억대 연봉 직장인이 스타트업 차리기까지


내리 10년간 굴지 기업에서 연구를 해 오던 그가 사표를 던지자 주변 사람들은 의아해했다. 특정인의 음성만 뽑는 알고리즘을 소개한 박사학위 논문은 학계에서 빈번히 인용될 정도로 그는 이미 '유명인'이었다. 퀄컴에서 일하면서 받은 특허만 40여개다. 음성 분야에서 일가를 이룬 상태였다. 몸값은 사회생활 시작 당시보다 5배가량 뛰었다.


“창업에 대한 막연한 생각은 늘 마음속에 있었던 것 같아요. 2016년 크리스마스 즈음이었어요. 처음으로 죽음을 맞닥뜨렸어요. 건강에 이상이 온 거죠. 그런 일을 겪고나서 많이 달라졌어요. 세상에 남기고 갈 수 있는 ‘어떤 것’을 만들고 싶었어요. 내가 진짜 하고 싶은 것 딱 3년만 해보자고 생각했어요.”


수익을 창출하는 것이 당면 과제이지만 ‘아이스픽 AI’ 가 사회적으로 의미 있는 곳에 쓰이길 바라는 마음도 크다. “전 세계 여행지에 대한 정보를 알려주는 데에도 이 기술이 쓰일 수 있어요. 10시간 정도 분량의 오디오 콘텐츠로 100시간 분량을 만들어낼 수 있거든요. 시각장애인을 위한 콘텐츠도 만들 수 있으면 좋겠어요. 이런 분야에서도 우리가 롤모델이 됐으면 하는 바람입니다.”


글 jobsN 김지민

jobarajob@naver.com

잡스엔 

놓치지 말아야 할 태그

#미투

    많이 본 TOP3

      당신을 위한 1boon

        더보기