이제 사진설명은 사람이 안 써도 되겠네..MS의 알고리즘

조회수 2020. 10. 24. 18:00 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

출처: 마이크로소프트

사진만으로는 설명이 부족한 때도 있다. 그럴 땐 사진 아래 짧은 해설을 달게 된다. 영어로는 이를 '캡션(caption)'이라 부른다. 가끔은 캡션을 다는 일이 귀찮을 때가 찾아오기도 한다. 대신 맡길 사람이 있다면 좋겠는데 딱히 방법은 없었다. 그래도 희망은 가져도 좋을 소식이 들려왔다.

마이크로소프트(MS)가 인공지능(AI)을 활용해 이미지에 캡션을 달아주는 알고리즘 기술을 개발했다고 밝혔다. 인공지능은 이미지를 분석해 이를 글로 상세하게 묘사하게 된다. 사물을 식별할 뿐 아니라 사물 간의 관계를 보다 명확하게 설명할 수 있다. 연구진은 인간보다 훨씬 빠르고 정확하게 작업을 수행한다고 덧붙였다.


마이크로소프트는 2015년에도 비슷한 기술을 공개한 바 있다. 5년이 흘렀고 기술은 발전했다. 연구진은 기존 이미지 캡션 인공지능보다 기능적으로 2배 더 향상됐다고 말했다.

출처: 마이크로소프트

알고리즘의 기술 수준은 꽤 높은 것으로 보인다. 마이크로소프트는 이미지 캡션 벤치마크 '노캡스(nocaps)'에서 자사 알고리즘이 1위에 올랐다고 설명했다. 노캡스 벤치마크는 제약적인 조건에서 대략적인 기술 수준을 보여주는 지표로 활용되며 이미지 캡션 분야에서 널리 사용되고 있다.


인공지능으로 이미지에 캡션을 달기 위한 시도는 마이크로소프트만 하는 것은 아니다. 2016년 구글은 94% 정확도로 이미지에 캡션을 붙이는 인공지능을 개발했다고 밝혔다.

인공지능이 캡션을 작성하기 시작했다면 다른 곳으로도 응용이 가능하다. 일단 마이크로소프트의 애저 인공지능 서비스인 '애저 코그니티브 서비스(Azure Cognitive Services)'에 적용하면 누구든 앱으로 가져와 개발에 사용하도록 할 수 있다. 워드나 파워포인트, 아웃룩 등에 통합될 수도 있다.


캡션 생성 알고리즘은 무엇보다 시각장애인에게 유용한 기술이 될 전망이다. 마이크로소프트는 시각장애인을 위한 앱 '시잉AI(Seeing AI)'를 공개한 바 있다. 시잉AI는 주변 이미지 정보를 인식해 문자로 변환하고 음성으로 들려주는 기능을 제공한다. 시각장애인이 앞을 보지 못하더라도 주위 환경을 그릴 수 있도록 상세하게 설명해준다. 해당 알고리즘이 시잉AI에 적용된다면 놀라운 성능 향상을 기대할 수 있다.  


테크플러스 에디터 나유권

tech-plus@naver.com

이 콘텐츠에 대해 어떻게 생각하시나요?