네이버가 지난해부터 모바일 메인 개편에 이어 동영상 중심의 사용자경험을 위한 체질 개선, 창작자가 검색의 주인공이 되는 ‘인플루언서 검색’ 등 여러 굵직한 변화를 추진하고 있다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.
<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’, ‘SRE’, ‘데브옵스’, ‘음성인식’에 이어 이번엔 ‘클로바더빙’ 개발진을 만났다. <편집자 주>
[디지털데일리 이대호기자] 배우 유인나의 실제 목소리인지, 네이버가 합성한 기계 음성인지 알고 들어도 분간이 쉽지 않던 게 두 해 전이다. 이후 네이버가 기술 개발에 채찍질을 더해 나온 결과물이 ‘클로바더빙’이다. 지난 2월 출시했다.
클로바더빙은 동영상에 인공지능(AI) 음성을 입힐 수 있는 서비스다. 텍스트만 치면 합성음을 생성할 수 있다. 사람이 직접 목소리를 녹음하고 후속 작업하는 번거로움을 줄여 누구나 쉽게 더빙 콘텐츠를 제작할 수 있게 만든 것이 특징이다.
이용자 입장에서 보면 클로바더빙은 쉽고 간편한 서비스다. 그러나 쉽다고 만만하게 볼 서비스는 아니다. 서비스 뒷단엔 놀랄만한 기술적 성취가 숨어있는 까닭이다. 과연 두 해 전보다 얼마나 기술적인 진보를 이뤘을까.
◆방망이 대신 목소리 합성 기술을 다듬다
이태원발 n차 감염이 발발하기 전, 코로나19 확산이 어느 정도 잠잠해진 5월 초순에 ‘클로바더빙’ 개발진을 만났다. 김재민 클로바 보이스 리더<사진 가운데>, 손정민 연구원<사진 왼쪽>, 이봉준 연구원이다.
개발자 3명 모두 음성기술 분야에 오래 몸담았다. 특히 김재민 리더는 지난 20년여간 해당 기술을 연구한 핵심 인재다. 세계적인 음성합성·인식 기술 업체인 미국 뉘앙스커뮤니케이션을 거쳐 LG전자 등에 근무한 뒤 네이버에 정착했다.
이들을 마주하자 장인 정신을 기린 ‘방망이를 깎던 노인’ 수필이 떠오르는 것은 왜일까. 노인이 방망이를 깎는 대신 개발자들이 목소리 합성기술을 꾸준히 다듬고 있다는 점이 달랐다.
음성합성 기술은 ▲UTS(Unit-selection Text-to-Speech; 합성단위 선택방식) ▲HDTS(High-quality DNN Text-to-Speech) ▲NES(Natural End–to-end Speech Synthesis)로 나뉜다.
UTS 기술은 합성음 제작에 40~100시간 정도 목소리 녹음이 필요하다. 여기에서 발전한 HDTS는 최고 품질의 합성음을 만드는 기술이다. 네이버는 4시간의 녹음으로 사람 목소리와 비슷한 수준의 합성음을 만들 정도로 기술을 고도화했다. 이 기술로 배우 유인나 목소리를 서비스한 바 있다.
NES는 40분 수준의 음성 데이터(약 400문장)으로 합성음을 제작할 수 있는 기술이다. 이봉준 연구원이 네이버에서 NES 기술팀의 첫발을 뗐다. 손정민 연구원이 맡은 클로바더빙은 NES 기술 기반 서비스다.
HDTS가 ‘고품질’을 지향한다면 NES는 ‘쉬운 사용성’을 지향한다. 김 리더는 “앞으로도 HDTS와 NES 두 축으로 간다”고 말했다.
◆핫 뜨거운 ‘클로바더빙’ 인기…연말까지 무료
코로나19 확산은 클로바더빙에 뜻하지 않은 호재가 됐다. 일선 학교에서 온라인 강의를 준비하면서 영상에 입힐 AI 목소리가 필요해진 까닭이다. 기관과 기업들은 당초 이달 말까지 클로바더빙 무료 사용이 가능했으나 네이버는 연말까지 이 기간을 연장할 방침이다.
김 리더는 “온라인 교육과 맞물려 클로바더빙 사용자가 많이 늘었다”며 “2만곳 가까이 제의가 왔고 교육 제휴 문의가 가장 많았다”고 말했다. 이어서 “(AI 목소리로) 익명성이 확보돼 한 분이 만든 것을 다 같이 쓸 수도 있고 여러 과목들을 만들게 되니까 효율성 측면에서도 좋다”고 강조했다.
오프라인 학회도 온라인으로 진행되면서 논문 소개 시에 클로바더빙을 활용하는 사례도 나오고 있다. 김 리더는 “자기 논문을 짧게 소개할 때 영어로도 클로바더빙을 활용한다. 원어민 발음이 나오니 반응이 좋더라”며 웃었다.
한편 네이버는 지난 4월 일본 시장을 위한 클로바더빙 글로벌 버전을 오픈했다. 라인 계정을 연동해 사용할 수 있다. 현재 일본어(여성3종, 남성1종), 영어(여성1종, 남성1종) 한국어(여성1종, 남성1종) 등 총 8종의 보이스를 선보였다.
◆클로바더빙에 어떤 기술 들어갔나
클로바더빙에 활용된 AI 음성기술은 ▲언어처리 ▲엔드-투-엔드(End-to-End) 음성합성 ▲뉴럴 보코더(Neural Vocoder) ▲스피커 어댑테이션(Speaker Adaptation) 등이 있다. 이들 기술 가운데 하나라도 서툴면 클로바더빙 서비스가 탄생할 수 없다.
언어처리는 문장에 들어간 숫자나 기호들을 어떤 소리로 읽을지 판단하는 기술이다. 예를 들어 ‘3M’이라는 단어가 들어있을 때 ‘삼메가’, ‘삼미터’, ‘쓰리엠’ 등 문맥에 적합한 소리가 무엇인지 AI가 알아챈다.
엔드투엔드 음성합성 기술은 음성과 텍스트가 쌍으로 이뤄진 데이터만을 학습해 한 번에 음성 합성기를 만드는 방식을 일컫는다. 이를 통해 이전과 같은 다양한 전사 작업이 없어지면서 합성음 품질이 떨어지는 경우가 거의 사라졌다는 게 네이버 설명이다.
뉴럴 보코더는 음성 합성기의 마지막 단계에서 실제로 소리를 만들어내는 부분이다. 일반적인 뉴럴 보코더로는 고품질의 합성음을 만들 수 있지만 생성에 많은 시간이 걸려 상용화가 쉽지 않다.
네이버는 뉴럴 보코더 기술을 고도화해 고품질을 유지하면서도 합성음 생성 속도를 끌어올렸다. 여기에 스피커 어댑테이션 기술까지 고도화하면서 기존에 확보한 많은 음성 데이터로 만든 모델을 변형, 40분 정도의 데이터로도 새로운 합성기를 만들어낼 수 있는 수준에 이르렀다.