`1990년대 후반 영화배우 안성기씨가 TV에서 “본부! 본부”를 외치는 모습이나, 김혜수씨가 휴대폰에 대고 “우리~집”이라고 속삭였던 휴대폰 광고를 기억하십니까? 휴대폰에 내장된 음성 다이얼링 기능을 소개하기 위한 광고들이었죠.
하지만 인상적인 광고에도 불구하고 음성 다이얼링 기능을 실제로 사용하는 사람은 많지 않았습니다. 낮은 음성인식률 때문입니다. 요즘 나오는 휴대폰에도 음성 다이얼링 기능이 있더군요. 하지만 그 때의 학습효과 때문일까요? 그 때보다 훨씬 음성인식률이 높아졌음에도 음성 다이얼링 기능을 사용하는 사람을 주변에서 본 적이 없는 것 같습니다.
이처럼 음성인식 기술은 꽤 오랫동안 촉망받아온 IT기술이었지만, 지금까지는 성공사례가 많지 않았습다. 응용분야가 무궁무진할 것으로 예상돼 관심을 끌었지만, 기술이 기대만큼 따라주지 못했던 것입니다.
그런데 최근 다시 음성인식에 대한 관심이 커지고 있는 것 같습니다.
최근 구글이 선보인 스마트폰 ‘넥서스원’ 중에 눈에 띄는 기능이 바로 이 음성인식입니다. 넥서스원에 탑재된 안드로이드 2.1에서는 모든 텍스트를 음성으로 작성할 수 있도록 보이스 키보드가 장착돼 있다고 합니다. 음성 다이얼링 기능은 기본이고, 음성으로 이메일을 보내거나 트위터에 글을 올리는 것도 가능한 것으로 알려지고 있습니다. 물론 웹검색도 음성으로 할 수 있습니다.
제가 직접 넥서스원을 사용해 보지 않아서 얼마나 정확하게 음성을 인식하는지는 알 수 없습니다만, 꽤 좋은 성능을 보인다는 평가를 받고 있는 것 같습니다. 구글의 음성인식 기술은 구글이 직접 개발한 것입니다.
마이크로소프트도 비슷한 기술을 보갖고 있죠. MS의 스티브 발머 사장은 7일 미국 라스베가스 CES 전시회에서 태블릿 PC를 들고나와 “더 이상 키보드는 필요 없다”고 말했습니다. 터치와 음성인식이 키보드를 대신한다는 것입니다.
구글이나 MS 같은 회사들이 직접 음성인식 기술 개발에 매진한다는 것은 이 기술이 얼마나 많은 가치를 가진 것인지 짐작케 합니다. 그러나 아직은 구글∙MS의 음성인식 기술이 세계 최고는 아니라고 합니다. 세계에서 최고의 기술은 뉘앙스 커뮤니케이션이라는 회사가 보유하고 있다고 합니다.
하지만 MS나 구글, 뉘앙스커뮤니케이션이 한국어 음성인식을 위해 과감한 투자를 할 가능성은 높지 않습니다. 한국어를 사용하는 사람들은 한국인밖에 없고, 한국 시장은 너무 작아서 투자 매력도가 떨어지죠.
결국 한국어 음성인식은 국내 기술로 해결해야할 숙제입니다. 그럼 국내 음성인식 기술은 어디까지 와 있을까요?
1990년대 말이나 2000년대 초반만 해도 국내에도 음성인식 분야에 뛰어든 많은 회사들이 있었습니다. 대부분 벤처기업이었죠. 하지만 음성인식은 하루아침에 가능한 기술이 아닙니다. 지속적인 연구와 그에 걸맞는 투자가 병행돼야 하는 매우 어려운 분야입니다.
그래서 벤처기업이 도전하기에는 매우 어렵습니다. 많은 벤처기업들이 음성인식 분야에 뛰어들었지만, 대부분 실패하고 말았습니다. 물론 아직까지 살아남아 연구개발을 지속하는 회사들이 있습니다. 그러나 그들은 음성인식보다는 다소 쉬운 기술인 음성합성이나 TTS(문자를 음성으로 변환하는 기술) 등에 주력하고 있습니다.
하지만 한국어 음성인식이 엉망은 아닙니다. 이미 음성인식 기술은 우리 일상에 많이 퍼져 있습니다. 최근 현대-기아자동차를 구매한 분은 아실 것입니다. 현대∙기아차의 최신 모델에는 오디오-비디오 내비게이션이 내장돼 있습니다.
일반적인 내비게이션에도 음성인식 기술이 포함된 제품이 출시되고 있습니다. 대표적인 것이 파인디지털의 ‘파인드라이브 보이스’입니다. 운전중에 위험하게 목적지를 손으로 입력하지 않고, 말로 목적지를 입력할 수 있습니다.
또 어제(7일)에는 KTH가 모바일 맛집 검색에 음성인식을 접목했다고 발표했습니다. 스마트폰(옴니아)에 “신사동 TV에 반영된 맛집”이라고 말로 입력하면, 결과를 보여준다고 합니다. KTH는 앞으로 파란 웹 검색에도 이를 반영할 계획인 것 같습니다.
파인디지털이나 KTH의 기술은 한국전자통신연구원(ETRI)에서 이전받은 것입니다. ETRI는 음성인식처럼 많은 투자가 필요한 기술에 대한 연구를 대신하고 기술을 기업에 이전해 주는 서비스를 제공하고 있습니다.
ETRI 음성처리연구팀 이윤근 팀장에 따르면, 현재 우리나라의 음성인식 기술 수준은 세계 최고 수준에서 크게 모자라지 않다고 합니다. 물론 음성인식도 분야마다 상황마다 각기 다르지만 현재 ETRI 기술은 90% 이상의 음성인식률을 보인다고 합니다.
어쩌면 한국어 음성인식 기술이 더 발전하면 제가 기사도 말로 쓰는 시대가 올 지도 모르겠습니다.