실시간
뉴스

인터넷

[AI 콜로키움 2019] ‘수십시간→30분 녹음이면 음성합성’ 젊은 인재들 시선 집중

[디지털데일리 이대호기자] 네이버(대표 한성숙)의 인공지능(AI) 음성합성 기술이 비약적인 발전을 거듭하고 있어 주목된다. 기존 음성합성이 수십시간의 녹음 데이터가 필요했다면 네이버는 이를 4시간 분량으로 다시 30분으로 줄였다.

5일 네이버(대표 한성숙)가 서울시 삼성동 그랜드 인터컨티넨털 호텔에서 국내외 인공지능(AI) 연구자들을 대상으로 ‘네이버 AI 콜로키움 2019’ 학술행사를 열고 AI 원천 기술을 소개했다.

김성훈 네이버 클로바 AI 리더
김성훈 네이버 클로바 AI 리더
이날 김성훈 네이버 클로바 AI 리더는 ‘Clova AI 함께해요!’ 강연을 통해 클로바가 작년 한 해 연구 개발한 음성 기술, 비전 및 비디오 기술, 언어 처리 기술성과를 선보였다.

지난해 네이버는 배우 유인나 씨의 목소리를 4시간 분량의 녹음으로 자연스럽게 구현하는 자체 음성합성 기술로 업계의 관심을 모은 바 있다. 당시 유인나 씨 진짜 음성과 AI 음성합성의 결과물을 구분하기가 쉽지 않았다. 그 결과, 네이버는 11월에 클로바를 통한 모든 음성 답변을 유인나 씨의 목소리로 들을 수 있도록 하는 기능을 추가했다.

김 리더는 이번에 30분 녹음만으로 완성하는 음성합성 기술을 선보였다. 발표의 앞부분을 약 40분, 500문장을 녹음해 완성한 김 리더의 합성음을 립싱크하는 방식으로 진행했으나 참석자들이 눈치 채지 못할 수준의 음성합성 결과물을 내놨다. 네이버는 더욱 자연스러운 음성합성을 위해 목소리에 다양한 음색(톤)을 입힐 수 있는 기술도 연구 중이다.

‘입술 읽기(립리딩)’를 통해 음성을 인식할 수 있는 기술도 공개했다. 입술의 움직임을 보고 소리를 추적하는 음성인식 기술을 통해 여러 명이 말하거나 주변이 시끄러운 상황에서도 무리 없이 음성인식이 가능하다는 게 김 리더 설명이다.

음성합성 외에 기존의 이미지 검색과 광학문자판독(OCR) 기술에서 한 단계 나아가, 연속된 동작을 인식하는 포즈 인식, 장면 인식 기술도 소개했다.

아이돌 영상 속 춤추는 움직임을 인식해, 나의 춤과 비교해 점수를 자동 계산해주거나, 드라마 속 주인공들의 얼굴이나 움직임을 인식해 식사하는 장면, 키스하는 장면 등을 구별해낼 수 있는 기술이다.

이날 콜로키움 행사의 대단원은 ‘NAVER AI Researcher, 후배를 만나다’ 세션으로 마무리됐다.

김 리더를 비롯해 네이버에서 실제로 AI 기술 연구를 이끌고 있는 현업의 개발자들과 콜로키움에 참석한 차세대 AI 연구자들과 활발한 질의응답이 이뤄졌다. 현업 개발자들 중엔 20대 후반이 있을 정도로 젊어 콜로키움에 참석한 젊은 인재들과 거리낌 없이 소통했다고 회사 측은 전했다.

네이버 측은 “AI 기술 개발에 있어 학계 및 산업계와의 협력과 공유를 꾸준히 늘려 나갈 예정”이라고 밝혔다.

<이대호 기자>ldhdd@ddaily.co.kr
디지털데일리 네이버 메인추가
x