이제 사진설명은 사람이 안 써도 되겠네..MS의 알고리즘
사진만으로는 설명이 부족한 때도 있다. 그럴 땐 사진 아래 짧은 해설을 달게 된다. 영어로는 이를 '캡션(caption)'이라 부른다. 가끔은 캡션을 다는 일이 귀찮을 때가 찾아오기도 한다. 대신 맡길 사람이 있다면 좋겠는데 딱히 방법은 없었다. 그래도 희망은 가져도 좋을 소식이 들려왔다.
마이크로소프트(MS)가 인공지능(AI)을 활용해 이미지에 캡션을 달아주는 알고리즘 기술을 개발했다고 밝혔다. 인공지능은 이미지를 분석해 이를 글로 상세하게 묘사하게 된다. 사물을 식별할 뿐 아니라 사물 간의 관계를 보다 명확하게 설명할 수 있다. 연구진은 인간보다 훨씬 빠르고 정확하게 작업을 수행한다고 덧붙였다.
마이크로소프트는 2015년에도 비슷한 기술을 공개한 바 있다. 5년이 흘렀고 기술은 발전했다. 연구진은 기존 이미지 캡션 인공지능보다 기능적으로 2배 더 향상됐다고 말했다.
알고리즘의 기술 수준은 꽤 높은 것으로 보인다. 마이크로소프트는 이미지 캡션 벤치마크 '노캡스(nocaps)'에서 자사 알고리즘이 1위에 올랐다고 설명했다. 노캡스 벤치마크는 제약적인 조건에서 대략적인 기술 수준을 보여주는 지표로 활용되며 이미지 캡션 분야에서 널리 사용되고 있다.
인공지능으로 이미지에 캡션을 달기 위한 시도는 마이크로소프트만 하는 것은 아니다. 2016년 구글은 94% 정확도로 이미지에 캡션을 붙이는 인공지능을 개발했다고 밝혔다.
인공지능이 캡션을 작성하기 시작했다면 다른 곳으로도 응용이 가능하다. 일단 마이크로소프트의 애저 인공지능 서비스인 '애저 코그니티브 서비스(Azure Cognitive Services)'에 적용하면 누구든 앱으로 가져와 개발에 사용하도록 할 수 있다. 워드나 파워포인트, 아웃룩 등에 통합될 수도 있다.
캡션 생성 알고리즘은 무엇보다 시각장애인에게 유용한 기술이 될 전망이다. 마이크로소프트는 시각장애인을 위한 앱 '시잉AI(Seeing AI)'를 공개한 바 있다. 시잉AI는 주변 이미지 정보를 인식해 문자로 변환하고 음성으로 들려주는 기능을 제공한다. 시각장애인이 앞을 보지 못하더라도 주위 환경을 그릴 수 있도록 상세하게 설명해준다. 해당 알고리즘이 시잉AI에 적용된다면 놀라운 성능 향상을 기대할 수 있다.
테크플러스 에디터 나유권
tech-plus@naver.com