- 클로바 인공지능 화자인식, 5명까지 오류 없어…100명까지 테스트 - 8분 녹음 데이터로도 상당 수준의 음성합성 결과물 만들어내
[디지털데일리 이대호기자] ‘듣고 말하는 인공지능(AI)’은 어느 수준까지 도달했을까. 국내외에서 클로바(CLOVA) AI 스피커를 운용 중인 네이버(대표 한성숙)가 12일 데뷰(DEVIEW) 2018 컨퍼런스에서 듣고 말하는 AI에 대한 개발 과정을 공유했다.
12일 이봉진 네이버 클로바 스피치 팀 연구원은 데뷰(DEVEW) 2018 컨퍼런스에서 화자인식 개발 과정을 공유했다. 화자인식은 현재 AI 스피커 업계의 당면과제다. 말하는 사람이 누구인지 파악해야 개인화된 답을 내놓을 수 있다.
이를 위해 네이버 클로바 팀도 AI의 화자인식 품질을 올리는 중이다. 팀 내부에선 100명까지 화자를 늘려 인식 정확도를 검증했다. 1명(정확도 100%)부터 5명까지는 목소리 인식에 오류가 나타나지 않았다. 6명부터 품질 저하가 발생했고 100명에 이르자 10% 이상 인식 정확도가 떨어졌다.
화자인식 기능 구현을 위해선 ‘연산량 줄이기’도 극복할 과제 중 하나다.
AI 스피커에 그래픽처리장치(GPU)를 내장해 연산시키면 화자인식 정확도가 크게 올라가겠지만 실제 서비스에선 활용하기가 쉽지 않다. 이 연구원은 “GPU를 쓰면 좋긴 한데 비용 등 측면에서 어려운 부분이 있다”며 “(스피커) CPU를 사용하되 성능 개선을 고민하고 있다”고 연구 현황을 전했다.
이밖에도 ▲시작과 끝이 명확한 독립된 음성이 필요한 점 ▲다수가 동시에 말할 경우 화자인식이 어려운 점 ▲여러 사람이 번갈아가며 말할 경우 화자인식이 어려운 점 ▲대화 시 문장 구조를 벗어나면 인식이 어려운 점 등이 개발 과정에서 극복할 과제로 꼽혔다.
이 연구원은 또 “의도하지 않은 방향으로 서비스가 활용될 수 있다”며 “목소리를 녹음해서 클로바에게 들려줄 경우 화자인식이 공격받을 수 있다. 앞으로 연구가 더 진행돼야 할 부분”이라고 말했다.
같은 날 데뷰 2018 컨퍼런스 발표에 나선 이봉준 네이버 보이스 연구원은 자신의 음성합성 목소리를 들려줬다. 그는 청중에게 음성합성을 통해 인사를 건넸다.
지난 6월 네이버 자회사 라인(LINE) 연례 컨퍼런스에서 마스다준 라인 전략마케팅임원이 자신의 목소리를 기계적으로 합성하는 모습을 그대로 시연한 것이다.
라인 컨퍼런스에선 기존에 100시간, 기본적으로 40시간을 넘기는 녹음 데이터가 있어야 서비스 가능한 수준으로 음성합성 결과물이 나오는 것으로 알려졌지만, 당시 4시간에 불과한 데이터로 만들어냈다.
그런데 이날 이봉준 연구원의 음성합성은 8분 가량의 녹음 데이터를 기반으로 추출했다. 기존 100시간에서 40시간, 4시간의 녹음 데이터가 필요했던 음성합성을 그 사이 또 줄인 셈이다.
물론 이 연구원의 음성합성 결과물이 기계음성의 어색한 티를 완전히 벗지는 못했다. 하지만 8분 가량의 데이터로도 원음의 특성을 상당히 반영한 수준까지 올라왔다는 점이 주목된다.
음성합성은 발음, 속도, 호흡 등 여러 정보를 추정해 화자와 가장 비슷하면서 자연스러운 음성을 생성하는 기술이다.
발화자의 특성을 잘 나타내는 요소는 글을 읽는 방식인 운율이라고 볼 수 있다. 음의 높낮이는 물론 비음이 섞이는 정도, 끊어 읽기 등 고려할 것이 여러 개다. 음성합성의 만족도를 엄격히 설정한다면 넘어야 할 산이 적지 않은 셈이다.
이 연구원은 “100문장을 녹음해서 음성합성을 했는데, 100문장도 많다. 더 작은 데이터로도 해볼 것”이라며 강조했다. 또 그는 “(음성 개인화가) 실제 서비스로 나가게 되면 더 많은 데이터를 얻을 수 있을 것”이라며 연구 발전에 기대감을 보였다.