[AI원팀 성과②]'음성합성' 아파트방송뿐?..카이스트·KT "스토리텔링·로봇까지 확장"

조회수 2021. 2. 22. 16:31 수정

번역beta Translated by kaka i

닫기

번역중 Now in translation

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

닫기

지난해 2월 결성된 토종 인공지능(AI) 산학 연합체 ‘AI 원팀’이 1주년을 맞았다. KT가 주도한 AI 원팀에는 △현대중공업그룹 △LG전자 △LG유플러스 △한국투자증권 등의 기업과 △한국과학기술원(카이스트) △한양대 △한국전자통신연구원(ETRI) 등의 학교 및 연구기관들이 참여했다. AI 원팀은 지난 1년간 AI 분야 주요 기술 고도화와 표준화, 인재 양성 등에 집중했다. 그 결과 1년만에 AI의 음성인식과 음성합성 분야에서 가시적인 성과를 냈다. <블로터>는 음성인식과 음성합성 연구를 각각 주도한 장준혁 한양대 융합전자공학부 교수와 김회린 카이스트 전기 및 전자공학부 교수를 대면 및 화상 방식으로 만나 음성 기술 성과와 향후 계획에 대해 들었다. 장 교수와 김 교수의 인터뷰 내용을 2회에 걸쳐 소개한다.

김회린 카이스트 전기 및 전자공학부 교수가 화상 인터뷰에서 AI원팀의 음성합성 기술에 대해 설명하고 있다.

음성합성은 사람의 말소리를 기계적으로 합성하는 것을 말한다. 기존에는 주로 아파트나 공공 시설에서 나오는 안내방송에서 주로 쓰였다. 녹음된 성우의 목소리를 일반인의 목소리와 합성해 다양한 문장을 성우와 비슷한 목소리로 재현하는 방식이다. 기존 음성합성 기술은 GPU(그래픽처리장치) 중심으로 이뤄졌다. 그러다보니 기업이나 연구를 수행하는 대학교 입장에서는 높은 비용이 걸림돌이었다.

김회린 카이스트 전기 및 전자공학부 교수는 여기에 착안, AI 원팀의 연구활동을 통해 GPU를 사용하지 않고 CPU(중앙처리장치)만으로 음성을 합성하는 기술을 개발했다. 김 교수는 이 기술로 음성합성에 들어가는 비용을 기존 대비 4분의1 수준으로 줄였다. GPU 기반의 서버를 구축하려면 여러장의 GPU가 필요한데 글로벌 GPU 시장 1위 기업 엔비디아에 기업들의 요청이 집중되다보니 장비 확보에도 어려움이 따랐다. 김 교수는 CPU가 GPU보다 떨어지는 속도는 알고리즘의 고속화로 해결했다. 알고리즘에서 연산량을 줄여 속도를 기존보다 10배 향상시켰다.

기존 방식의 음성합성의 속도가 김 교수가 개발한 CPU 기반의 방식보다 속도가 더 빠른 경우도 있다. 하지만 딥러닝(기계심화학습)을 음성합성에 적용하면 연산량이 기존보다 수천배 많아진다. 자연히 속도가 느려질 수밖에 없다. 김 교수는 딥러닝을 적용하면서도 속도가 느려지지 않도록 하기 위해 CPU 방식을 도입했다.

높은 품질의 음성합성 결과물을 내놓기 위해서는 음성 데이터가 필요하다. 많은 음성 데이터를 기반으로 AI가 학습을 해야 하기 때문이다. 하지만 음성 데이터는 다른 데이터보다 많은 양을 확보하기가 어렵다. 성우든 일반인이든 몇시간씩 문장을 읽거나 말을 해줄 것을 요구하기가 어렵기 때문이다. 때문에 김 교수는 10~20초의 짧은 음성 데이터에 변조를 가해 데이터의 양을 늘리는 방식을 고안했다. 적은 데이터로도 음소(음의 최소단위)의 다양성을 확보해 합성된 음성의 품질을 높이자는 취지다. 가령 1~2명이 녹음한 음성 데이터만으로 수십명의 목소리를 만들어내 AI가 보다 다양한 음성을 기반으로 학습할 수 있도록 하는 방식이다.

김 교수는 “1시간 정도 발성한다면 다양한 특성이 반영돼 많은 데이터를 얻을 수 있겠지만 이런 방식은 실제로 채택하기 어려워 짧은 데이터로 양을 늘리는 방식을 택했다”며 “현실적으로 접근이 용이한 방법”이라고 말했다.

고도화된 음성합성 기술을 원하는 분야는 늘어나고 있다. 아파트의 안내방송이나 ARS 서비스 등이 기존 음성합성 기술 사용처였다면 자신만의 음성으로 스토리텔링이 가능한 서비스도 주목받고 있다. KT가 선보인 ‘내 목소리 동화’ 서비스가 대표적이다. 내 목소리 동화를 통해 총 300문장을 녹음하면 딥러닝 음성합성(P-TTS) 기술을 통해 오디오 동화책을 만들 수 있다. 한 번만 녹음하면 추가로 녹음할 필요없이 동화책을 추가할 때마다 새로운 동화를 부모의 목소리로 들려줄 수 있다. KT는 자사의 AI콘텍트센터(AICC)에도 이르면 3월말 음성합성 기술을 도입해 더 자연스러운 목소리로 서비스를 안내하도록 할 방침이다.

김 교수는 음성합성 기술이 나아가서는 로봇에도 도입될 수 있다고 전망했다. 로봇이 사람과 대화를 나눈 과정에서 자연스러운 음성을 구현하는 것은 필수적이기 때문이다. 그는 “음성합성 기술이 더 발전하면 사용처에 따라 특화된 로봇 시스템도 만들 수 있을 것”이라고 말했다.

음성합성 분야에는 KT뿐만 아니라 삼성전자·네이버·카카오 등의 정보통신기술(ICT) 기업들도 뛰어들어 연구를 펼치고 있다. 김 교수는 해외 기업들이 음성합성 기술에서 한국보다 앞서 있지만 그 격차는 크지 않다고 판단했다. 김 교수는 음성합성 분야에서 가장 앞선 기업으로 구글을 꼽았다. 방대한 데이터와 막강한 자본력을 내세워 다양한 음성합성 기술 개발에 나설 수 있기 때문이다.

김 교수는 “국내 기업들은 바로 상용화 가능한 딥러닝 음성합성 기술을 보유한 곳도 있지만 고가의 컴퓨팅 설비가 필요해 항상 비용이 걸림돌”이라며 “국내 상황에 맞게 필요한 분야부터 음성합성 기술을 적용하며 상용화에 나서야 할 것”이라고 말했다.

이 콘텐츠에 대해 어떻게 생각하시나요?

공유 신고

블로터