네이버가 지난해부터 모바일 메인 개편에 이어 동영상 중심의 사용자경험을 위한 체질 개선, 창작자가 검색의 주인공이 되는 ‘인플루언서 검색’ 등 여러 굵직한 변화를 추진하고 있다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.
<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’, ‘SRE’, ‘데브옵스’, ‘음성인식’에 이어 이번엔 ‘클로바더빙’ 개발진을 만났다. <편집자 주>
[디지털데일리 이대호기자] 이제 ‘40분 녹음’으로 내 목소리를 꼭 닮은 기계 합성음을 제작할 수 있는 시대다. 네이버 클로바 보이스(Clova Voice) 팀이 만든 ‘클로바더빙’이 이끈 변화다.
물론 발음 편차 등 문제로 개인에 따라 더 긴 녹음 시간이 필요할 수 있다. 그러나 A급 성우들만 음성 합성기를 만드는 것이 아니라 아마추어, 일반인, 아이들로도 제작 영역을 확대했다는 점에서 적지 않은 의미를 부여할 수 있다.
특히 기존의 아동 합성기는 어른이 아이의 목소리를 흉내 내는 수준이었다면 클로바더빙은 진짜 아이 목소리 합성음을 만들어낸다. 관련 특허도 받았다. 아동 합성기는 네이버가 업계 최초다.
일반 대중을 위한 쉬운 사용자환경(UI)을 갖췄다는 점도 클로바더빙의 특징이다. 전문가 영역을 대중의 영역으로 끌어왔다. 클로바더빙이 국민 음성합성기를 노릴 수 있는 위치에 선 셈이다.
◆‘성우 한계’ 뛰어넘은 클로바더빙
클로바더빙의 놀라운 점은 ‘성우(화자) 한계’를 극복했다는 것이다. 일반엔 잘 알려지지 않았으나 이 부분이 핵심 기술력이다.
오래전 음성합성시스템(TTS) 결과물을 들어보면 목소리가 몇 개 되지 않는다. 일부 목소리가 TTS 시장을 독과점했다. 이유가 있다.
지난 20여년간 이 시장에 몸담은 김재민 클로바 보이스 리더<사진 가운데>는 “합성기술이 화자 영향을 많이 타기 때문”이라고 부연했다.
김 리더에 따르면 국내 TTS 시장은 임미진 성우가 열었다. 목소리 자체가 기계음 같이 정제돼 음성합성 결과물이 잘 나왔다. 그 뒤 이윤정 성우가 바통을 이어받았다. 김 리더가 오래전 이 성우를 발탁한 장본인이기도 하다.
그는 “임미진 성우로 쭉 가다가 이윤정 성우로 대전환을 맞았다”고 표현했다. 이 성우는 기본적인 발화가 훌륭했고 목소리 특성이 음성합성을 하기에 최적화돼 그야말로 음성합성기의 국민 목소리로 활약했다. 내비게이션에서 쉽게 들을 수 있는 여자 목소리가 이윤정 성우다.
이처럼 수년전까지도 기업이 활용할 만한 고품질의 음성합성은 고도의 훈련을 거친 성우 중에서도 몇몇이 가능한 작업이었다. 수십시간의 음성 데이터가 필요했고 발음을 하나씩 쪼개 다시 결합하는 초기 유니셀렉션 방식에선 더욱 그랬다.
지금처럼 배우 유인나에 이어 방송인 오상진까지 실제 목소리와 분간이 힘들 정도의 음성합성이 가능해진 것은 실로 놀랄만한 발전이다.
이는 수십시간 목소리 녹음을 4시간으로 줄이면서도 고품질의 음성합성(HDTS)을 구현하고 일반이 쉽게 접근하도록 일정 수준 품질을 유지하면서 40분으로 시간을 줄인 클로바 보이스 관련 개발진의 공이 컸다.
◆수익성·대중화 해결하면 ‘보이스 마켓’ 가능
클로바 보이스 팀이 보는 미래는 어떤 모습일까. 김 리더는 ‘보이스 마켓’을 거론했다. 자신의 목소리를 거래할 수 있는 장터를 만들고 싶다는 것이다. 지금도 기술적으로 가능하지만, 대중화와 수익성 확보가 걸림돌로 남았다.
김 리더는 “수익성 등을 해결하고 더빙이 잘 활성화된다면 이후 ‘보이스 마켓’을 보고 있다”며 “남이 (내 목소리를) 쓴다면 유지할 가치가 생길 것”이라고 포부를 밝혔다.
현재 클로바더빙은 무료 서비스다. 기관과 업체 수요가 기대 이상으로 몰려 이를 감안해 연말까지 무료로 쓸 수 있게 했따. 이 과정에서 목소리를 제작하고 서비스하는데 드는 서버 비용은 네이버가 온전히 부담한다. 물론 언제까지 네이버가 부담만 질 수는 없다.
예를 들면 본인 목소리를 무료로 만드는 대신 모두가 사용할 수 있도록 하거나 본인만 사용하고 싶다면 금액을 지불해 클로바더빙 안에서만 사용할 수 있도록 하는 등 여러 방안을 고민 중이다.
◆목소리 어뷰징 막을 기술 완비
네이버가 업계 최초로 아동 목소리로 합성음을 제공하면서 고민했던 부분이 ‘어뷰징(불법활용)’이다. 이를 방지하고자 다양한 기술적 장치를 적용했다.
영상의 원작자를 보호하고 더빙을 통해 제공되는 합성음에 관련한 이슈가 발생할 경우를 대비해 실명인증을 진행하는 것이다. 실명인증은 문제가 발생하면 추적이 가능하다.
또한 클로바더빙 워터마크(복제방지)가 동영상과 음성 모두에 적용된다. 클로바더빙을 통해 불법 또는 반사회적인 콘텐츠를 생성하는 것은 약관에 명시, 금지하고 있다. 실제로 더빙에서 욕설이나 비속어 등을 포함해 작성하는 경우 합성음이 생성되지 않는다. 네이버는 지속적인 모니터링을 통해 어뷰징 방지를 위한 기술적 검토를 진행한다는 방침이다.