요즘 AI, 말은 잘하면서 왜 귀는 어두울까? [real! AI pro]

실시간
뉴스

일반

요즘 AI, 말은 잘하면서 왜 귀는 어두울까? [real! AI pro]

디지털데일리 발행일 2024-11-20 08:00:00

이건한 기자

URL복사

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 요즘 인공지능(AI)의 대화 능력은 실제 사람으로 착각할 만큼 자연스러운 수준을 보입니다. 또한 이제 단순한 채팅을 넘어 감정까지 가미된 합성음성을 활용해 사용자와 대화를 나누기도 하죠.

그러나 여전히 아쉬운 부분은 음성인식입니다. 실제로 스마트폰 녹음 앱이나 AI 회의록 서비스 등을 쓰다 보면, 막상 사람은 쉽게 알아들었던 말도 제대로 인식하지 못하거나 엉뚱한 단어로 변환하는 경우를 쉽게 볼 수 있습니다. 물론 전후 맥락을 통해 올바른 뜻을 다시 유추할 수도 있지만 번거롭죠. 문제는 AI의 대화능력이 아무리 수준급이라도 애초에 귀가 어두우면 그 능력은 빛이 바랜다는 점입니다.

그럼 과연 지금 같은 AI 언어능력 발전 수준에 발맞춰 AI 음성인식 기술도 더욱 개선될 여지가 있을까요? 더불어 현재 음성인식 성능보다 사용자 체감 성능에 차이가 나타나는 이유, 문제 해결에는 어떤 노력들이 필요한지 이번 주제는 셀바스AI의 윤재선 음성사업 대표가 설명해 드립니다. 윤 대표는 음성인식 및 AI 분야에서 약 26년간 풍부한 연구 및 사업 경험을 쌓아 온 업계 내 주요 전문가로 꼽힙니다.

알게 모르게, 일상과 가까워진 음성인식 기술

안녕하세요, 윤재선입니다. 요즘은 음성인식 기술을 향한 관심도가 과거 10년 전과 비교하면 크게 높아진 것이 느껴집니다. 특히 음성인식 기술도 다른 AI 융합 분야와 마찬가지로 딥러닝과 결합된 후 성능이 급격히 향상됐는데요.

이후 AI 홈스피커와 자동차에도 음성 인터페이스가 본격 도입된 점, 코로나19 대유행 시절에는 원격회의나 녹취 수요가 높아졌던 점 등이 고품질 음성인식 기술에 대한 업계 안팎의 관심이 높아진 배경이었습니다. 또한 요즘은 챗GPT를 비롯해 개인이 접할 수 있는 음성 지원 AI 서비스도 많아지다 보니 관심의 폭은 더욱 넓어지고 있고요.

음성인식 100%, 현실적으로 어렵다…왜?

다만 AI 음성인식의 정확도가 아직 100%에 도달하지 못했기에 사용자 입장에선 만족스럽지 못한 경험들이 있을 수 있습니다. 게다가 음성인식은 그 특성상 1차로 입력되는 음성 데이터 품질에도 상당한 영향을 받을 수밖에 없는 한계를 지니고 있습니다.

이는 인간도 각자의 언어 능력과 별개로 여러 사람이 동시에 이야기하거나 주변 잡음이 심할 경우, 상대의 발음이 좋지 않을 경우 모든 발화 내용을 온전히 알아듣기 어려운 것과 같습니다. 또한 우리가 흔히 쓰는 스마트폰이나 노트북 마이크는 기본 성능도 낮은 편이라 그 영향을 더욱 크게 받고요.

하지만 그런 열악한 환경에서도 음성인식의 정확도와 품질을 높이기 위한 업계의 연구는 지속되고 있습니다. 그 핵심에는 AI 모델 및 엔진, 학습 데이터가 있죠. 특히 법률, 의료 등 전문분야의 AI 도입 필요성이 높아질수록 전문 데이터의 중요성은 더욱 높아집니다. 이들 분야에선 일상에서 우리가 흔히 쓰는 단어와 거리가 먼 용어들의 사용 빈도가 높기 때문입니다.

이때 AI가 관련 용어들을 충분히 학습하고 있지 않다면 그만큼 엉뚱한 말로 변환할 가능성도 높아집니다. 물론 이 점은 AI도 억울할 겁니다. 사람으로 비유하면 누군가 앞에서 내가 잘 모르는 분야의 전문용어를 섞어 이야기하면서 “잘 좀 알아들어 봐라”하고 명령을 받는 것과 같습니다. 이때 어떻게든 내용을 받아 적어야 한다? 일단 자신이 아는 단어와 가장 유사한 것들을 골라 쓸 겁니다. 정답인지 오답인지는 차치하고요. 엉뚱한 단어로 변환하는 음성AI나, 환각현상을 일으키는 AI나 모두 이와 유사한 이유입니다.

중요한 건 '전문화 데이터·인력' 투자 유무

따라서 AI의 음성인식률 향상을 위해선 기본적으로 사용할 분야 또는 타깃 대상에 최적화된 학습 데이터 확보가 중요합니다. 앞서 언급한 전문 용어는 물론이고, 음성의 특성상 다양한 억양과 사투리, 연령대별로 달라지는 발음과 발화 특성까지 세분화된 데이터가 확보될 때에 비로소 지금보다 나은 인식률을 기대할 수 있게 됩니다.

일례로 셀바스AI가 일전에 어린이 대상 교육 AI 음성인식 과제에 참여했을 때, 경쟁 대기업보다 높은 인식률로 과제 수주에 성공한 일이 있었습니다. 당시 저희는 영어 교육 솔루션 사업을 통해 저학년들의 발음 특징을 인지하고 있었고, 해당 데이터를 잘 인식할 수 있도록 별도 학습한 엔진으로 과제에 도전한 덕분이었지요. 아무리 좋은 음성인식 기술을 지닌 대기업이라도 이런 특수한 영역에선 관련 학습 데이터의 확보 유무가 경쟁의 승패를 가릅니다.

또한 단순히 특정 분야의 학습 데이터만 많이 확보하는 것이 능사는 아닙니다. 학습용 음성 데이터도 일종의 전처리와 전사(원본 데이터를 다른 형태로 변환) 작업을 통해 양질의 데이터로 가공할수록 AI의 성능이 좋아집니다. 이때 음성 검수인력을 동원하거나 사용자가 직접 데이터를 수정 후, 다시 음성인식 엔진에 반영해 인식률을 높이는 방법이 유효한데요. 이게 소규모라면 몰라도, 기업 시스템 단위나 고도화된 전문성이 요구되는 분야라면 데이터 가공 시간과 비용이 크게 늘어나게 됩니다.

그런데 일반 사용자용 AI 음성인식 서비스에 널리 사용되는 범용 엔진은 사전학습 데이터 종류나 규모는 방대해도, 발화 대상의 세분화나 전문분야 데이터 학습에는 약합니다. 솔직히 그만한 데이터를 모두 학습하려면 모델 크기도 훨씬 커지고 무거워질 수밖에 없죠. 수요가 얼마나 있을지도 모르는 데이터까지 모두 학습하는 것도 비효율적입니다.

어쨌든 이를 개선하려면 더 많은 음성 데이터를 분야별로 전사 처리하고 재학습해야 하는데요. 일반적인 음성인식 서비스의 수익성 대비 학습 비용을 고려하면 기업 입장에서 그리 매력적이지 않은 투자가 됩니다. 이 때문에 현실적으로, 우리가 잘 아는 음성인식 기반 서비스들의 인식률이 지금보다 더 나아지길 기대하는 건 어렵다는 이야기입니다. 일반 사용자들 입장에선 아쉬운 일이죠.

그래도 기업은 '기회'를 엿볼 수 있다

그러나 그 점이 반대로 기업에게는 새로운 비즈니스 기회가 될 수 있습니다. 음성인식을 필요로 하는 영역은 앞으로 더욱 다양하고 전문화될 전망인데, 그만큼 새로운 틈새시장도 많이 발굴될 것이란 의미이기 때문입니다. 이때 경쟁력 확보를 위해 중요한 건 앞서 이야기한 것처럼 얼마나 다양한 전문 데이터를 효과적으로 확보하는가, 그리고 전문 데이터 검수인력도 얼마나 풍부하게 확보할 지가 될 것입니다.

특히 AI의 인식률, 학습 한계를 보완할 자체 검수인력 양성은 전략적 투자 가치가 높습니다. 셀바스AI도 사내에 전문 검수인력을 두고 있습니다. 덕분에 특정 프로젝트 진행 시 별도의 임시 인력을 채용할 필요가 없고, 그들의 높은 업무 숙련도를 바탕으로 개발 인력들과도 소통도 원활합니다. 이는 곧 데이터 품질 고도화, 빠른 작업 속도로 이어지죠.

셀바스AI의 '셀비노트'는 현재 AI 기반 조서 작성, 선박 내 무전 기록, 법률 상담 기록 등에 폭넓게 쓰이고 있다. [ⓒ 셀바스AI]

데이터의 경우 주로 AI 허브 등에서 제공하는 개방형 데이터를 사용하는 것, 계약을 통해 기관으로부터 실데이터를 확보해 사용하는 방법이 있습니다.

이 중에서 공공 데이터는 비용 부담이 없어 좋습니다. 하지만 상당수 공공 데이터가 아직 보안상 이유로 접근이 제한되어 있는 점, 기관 특성에 최적화된 서비스 개발에 도움이 될 데이터 가이드라인이 부족한 점은 다소 아쉽습니다. 이 문제는 추후 정부에서 데이터 보안을 강화하면서도 접근성은 향상될 수 있는 방향으로 정책 지원에 나서 주기를 바라고 있는데요. 데이터는 저희 같은 AI 음성 사업자가 아니라도 모든 분야의 AI 기업들이 경쟁력 있는 서비스 개발을 위해 꼭 필요한 자산임을 기억해 주었으면 합니다.

물론, 우리 기업들도 단 1%의 인식률이라도 향상하기 위한 기술 개발 노력을 멈추지 말아야 하겠습니다. 또한 아무리 좋은 데이터와 인력이 있어도 결국 서비스의 가성비와 확장성을 결정짓는 건 고성능 음성인식 엔진과 경량화 기술이 될 겁니다.

오랫동안 음성인식 분야에 '올인'했던 셀바스AI가 현재 품질면에서 안정적인 경쟁력을 유지할 수 있는 이유도 온디바이스 단말 내 1코어당 동시접속 채널 12개 운영이 가능할 만큼 경량화 된 엔진(Selvy STT 3.0 E2E)처럼 자신있게 내놓을 만한 가성비와 인식률(95%) 구현 기술을 자체적으로 보유한 덕분이니까요.

이미 인간을 넘어선 음성인식 기술의 현주소

아울러 다방면에서 음성인식 기술을 접하고 있는 사용자들에게도 조금은 너그러운 시선으로 보아 달라고 말씀드리고 싶습니다. 일례로, 사람의 대화를 실시간으로 정확하고 빠르게 받아 적어 신기해 보이는 '인간 속기사'들의 정확도는 평균 92% 수준입니다. 그러나 지금 공공기관, 실시간 의회 자막 방송 등에서 충분히 활약 중인 음성인식 AI의 인식률은 이미 93%~94%에 이릅니다. 저희 솔루션 또한 95%~96%의 인식률을 자랑하고요.

하지만 여전히 'AI라면 100% 성능을 보여야 한다'는 인식이 이 같은 기술 수준을 평가절하하기도 하는데요. 앞서 말씀드린 외부적 요인, 학습 데이터의 한계 등으로 아직 현시점에선 AI가 사람의 도움 없이 100%의 인식률은 달성하기 어려운 것이 현실입니다.

대신 지금도 인간과 비슷하거나 더 나은 인식률을 바탕으로 상대적인 저비용, 높은 생산성을 제공하고 있고요. 사용자들이 이 한계를 조금 더 이해하고 너그럽게 기다려주는 동안, 열심히 한계를 극복해 나가는 것이 이제 우리 업계의 중요한 숙제가 될 것입니다.

그런 면에서 한편으론 AI가 음성인식 결과를 생성할 때 최대한 소리나는 대로 결과를 출력하도록 만드는 것이 굳이 비슷하면서 엉뚱한 단어로 변환해 사용자에게 혼란을 주는 것보다 훨씬 나은 사용자경험을 제공할 수 있을 것으로 생각되기도 합니다. 나아가 셀바스 AI도 지속적인 연구개발을 통해 음성인식에서 나아가 온디바이스 STT(음성-문장변환), sLLM(경량급대형언어모델), TTS(문장-음성변환) 통합 솔루션 기반의 고성능 음성지능 개발에 박차를 가하겠습니다.