[네이버 어벤저스] ‘보고 듣는’ 차세대 음성인식은 무엇?

실시간
뉴스

인터넷

[네이버 어벤저스] ‘보고 듣는’ 차세대 음성인식은 무엇?

디지털데일리 발행일 2019-12-03 17:15:26

이대호

URL복사

올해 20주년을 맞은 네이버가 상당 폭의 변화를 추진 중이다. 모바일 메인 개편은 여러 실험 끝에 확 달라졌고 동영상 중심의 콘텐츠 제작과 편집, 소비에 이르기까지 끊이지 않는 사용자경험을 위한 체질 개선도 진행 중이다. 창작자 중심의 검색 서비스인 ‘인플루언서 검색’은 내년 초 정식 서비스를 앞뒀다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.

<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’, ‘SRE’, ‘데브옵스’에 이어 여섯 번째 팀 ‘음성인식’ 개발진을 만났다. <편집자 주>

사진 왼쪽부터 네이버 서치앤클로바 스피치(Speech) 팀 권오혁 연구원, 오명우 연구원, 한익상 리더

[디지털데일리 이대호기자] 네이버(대표 한성숙)가 차세대 음성인식에 대한 비전을 꺼냈다. 이른바 ‘보고 듣는’ 음성인식이다. 비디오 정보까지 분석, 음성인식의 정확도를 끌어올린다.

이러한 기술은 네이버가 짓고 있는 로봇친화형 제2사옥에도 적용될 수 있다. 기술이 무르익으면 ‘회의록이 없는 회의’도 가능할 전망이다.

지난달 네이버 그린팩토리에서 만난 서치앤클로바 스피치(Speech) 팀을 이끄는 한익상 리더와 권오혁 연구원, 오명우 연구원은 “오디오와 비디오를 다 사용하는 음성인식을 준비한다”며 “비디오 정보까지 더해서 분석하면 음성인식 정확도가 향상된다”고 말했다.

이 같은 비디오, 오디오 정보의 결합은 음성인식 기술의 최신 유행이기도 하다. 비디오 정보를 통해 화자를 인식하면 회의 도중 동시다발적인 발화에도 특정 인물에 집중, 보다 원활한 음성인식을 진행할 수 있다. 한 리더는 “그 사람 얼굴을 보면서 얘기를 듣는다고 보면 될 것”이라고 설명했다.

◆‘식당 예약도 인공지능이 응대’ 일상 바꿀 AI콜=앞서 네이버는 기업용 인공지능 예약 서비스 ‘AI콜’을 준비한다고 밝힌 바 있다. AI가 실제 사람처럼 말을 하고 응대하는 서비스다. 몇 명 예약이 가능한지, 식당 주변 주차장 안내까지도 가능하다. AI콜은 네이버 AI 기술의 집합체로 볼 수 있다.

이를 위해선 앞단에서 음성인식이 진행돼야 한다. 전화망을 통한 음성은 대면 발화와는 주파수 대역이 달라진다. 8킬로헤르쯔(kHz) 주파수 해상도가 낮아진다. 이 주파수의 해상도를 더 끌어올려야 음성인식이 원활하게 진행된다.

여기에 더해 네이버는 다양한 상황에서 음성인식이 가능하도록 수만, 수십만 시간의 데이터를 사용해 모델링을 거쳐 음향 모델을 고도화했다.

이를 위해선 여러 사람이 다양한 액센트로 다양한 잡음 환경에서 그리고 다양한 마이크 등을 통해 발화한 음성코퍼스가 필수적이다. 원음에 각종 잡음을 강제적으로 더하거나 목소리를 변조하는 등의 모델링을 거쳐 어떤 환경에서도 원활한 음성인식이 가능하도록 대비했다.

전화통화 시 말투도 고려했다. 이용자들이 그린닷 버튼에, 웨이브 인공지능 스피커에 말하는 방식을 지켜보면 ‘오늘 날씨 어때’, ‘지난주 노래 뭐 있어? 그거 틀어봐’하는 단문형, 명령형 문장이 많지만 전화통화에선 ‘장문형의 구어체’로 바뀐다. 여타 서비스에서 확보한 음성 데이터와 다른 발화 패턴이다.

한 리더는 “전화통화 시 사람에게 하는 말투로 바뀐다”며 “말하다가 더듬기도 할 것인데, 그런 다양한 환경에서 발화 패턴을 잡기가 쉽지 않다”고 전했다. 스피치 팀은 이 부분도 기술 측면에서 대비가 된 상태다.

◆검색기술 노하우 적극 활용…발 빠른 음향모델 업데이트=네이버는 한국어 분석에서 강점을 가지고 있다. 단어부터 형태소, 발음에 대한 구조 등 검색 서비스를 진행하면서 많은 노하우가 쌓였다. 이러한 부분이 음성인식 기술에도 활용돼 성능에 이득을 주고 있다.

‘뉴스 자막 생성’ 기술도 개발 완료해 서비스 시점을 조율 중이다. 오명우 연구원은 “유튜브 대비해서 장문 인식률이 더 높다”며 “기술적으로 준비는 다 됐다”고 힘줘 말했다.

권오혁 연구원은 “검색서비스를 하다 보니 음성인식 시 신조어 대응도 가능하다”면서 “새 가수가 앨범을 내는 등의 최신 정보도 검색 DB를 통해 매일 업데이트된다”고 강조했다.

네이버는 하루에도 몇 차례씩 또는 정기적인 음향 모델 업데이트를 진행한다. 범용 모델과 서비스특화 모델을 인터폴레이션(이미 알려진 특정 신호의 정보 영역에서 새로운 정보 신호를 추정해 구성하거나 추가, 삽입하는 작업)할 수 있는 구조를 고안하면서 가능해진 업데이트다. 서비스별로 또 사용 도메인별로 다른 언어패턴을 빠르게 반영하고 활용할 수 있게 됐다.

◆‘내년이 원년’ 이용자 단말에서 음성인식 처리=한 리더는 “단말에서 인식하는 형태의 음성인식을 준비한다”고 말했다.

보통 서버에서 음성인식을 처리하는 것이 인식률이 뛰어나지만, 프라이버시 문제와 서버를 계속 늘려야 하는 부담에서 벗어나고자 단말에서 음성인식을 준비 중이다. 기기 자체에서 데이터를 처리하는 엣지 컴퓨팅 기술이다. 구글도 삼성도 개발 중이다.

한 리더는 “단말에서 하는 음성 인식률은 점점 더 좋아질 것”이라며 “내년엔 온디바이스 엣지 음성인식의 원년이 될 것”이라고 예상했다.

◆“네이버에서 원하는 실험 마음껏 하세요” 음성인식 기술 인재들 주목=한 리더를 포함한 연구원들은 음성인식 기술 인재 확보에 대한 의지를 드러냈다. 최근 네이버 춘천 연수원에서 진행한 음성 기술 관련 해커톤 2차 최종본선에 100여개팀 250여명이 오를 만큼 반응이 뜨거웠다.

한 리더는 “참가하신 분들과 상담도 하고 채용기회로도 활용한다”며 “데뷰(개발자 컨퍼런스)보다 해커톤 같은 경진대회가 보다 친밀해질 수 있는 기회”라고 말했다.

오명우, 권오혁 연구원은 “음성인식 관련한 풍부한 데이터 인프라가 네이버의 강점이다. GPU를 활용해 원하는 실험도 마음껏 할 수 있다”며 기술 인재들의 입사 지원을 당부했다.

<이대호 기자>ldhdd@ddaily.co.kr