실시간
뉴스

인터뷰

‘밀리의 서재’가 성우·연예인 대신 AI 목소리 쓰는 이유

[인터뷰] 김태형 밀리의 서재 본부장, 이홍철 KT AI/빅데이터 상무, 이자룡 휴멜로 대표

김태형 밀리의 서재 콘텐츠사업본부장
김태형 밀리의 서재 콘텐츠사업본부장
[디지털데일리 백지영기자] 독서플랫폼 ‘밀리의 서재’는 AI음성합성서비스를 통해 작년 11월부터 100권 이상의 오디오북을 제작했다. 그동안은 성우나 배우, 인플루언서 등 연예인들과 오디오북 제작 작업을 진행해왔으나 비용과 시간의 한계가 있었다.

이에 더 많은 오디오 콘텐츠를 제공하기 위해 모회사인 KT가 작년에 출시한 AI음성합성서비스 ‘AI보이스스튜디오’를 활용키로 했다. 지난해 12월부터 현재까지 밀리의 서재가 서비스로 공개한 AI오디오북은 약 30여권이다.

최근 서울 마포구 합정동 사옥에서 만난 김태형 밀리의 서재 콘텐츠사업본부장은 “이제 막 시작한 단계지만, 올해 다양한 방식으로 AI 기술을 활용해 더 많은 사람들이 오디오 콘텐츠를 즐길 수 있도록 하겠다”고 각오를 밝혔다.

앞서 지난해 7월 KT가 출시한 ‘AI보이스스튜디오’는 국내 AI 스타트업 휴멜로와 의기투합해 만든 AI 음성합성 콘텐츠 제작 서비스다. 약 100개의 AI 목소리를 통합 다양한 감정으로 합성할 수 있는 것이 특징으로 현재 한국어, 영어, 중국어, 일본어, 스페인어 등도 지원한다.

이어 같은해 11월엔 출시한 ‘마이AI보이스’는 나만의 AI 목소리를 제작할 수 있는 서비스다. 30개 예시 문장만 녹음하면 내 목소리와 닮은 AI 보이스를 만들어 준다. 향후 밀리의 서재도 이러한 기능을 활용해 구독자가 직접 참여하는 형태의 오디오북 제작을 염두에 두고 있다.

실제 밀리의 서재는 이를 활용해 AI 윤도현의 목소리로 인기도서 ‘인간관계가 힘들어서 퇴사했습니다’를 오디오북으로 제작해 화제가 되기도 했다.

김 본부장은 “콘텐츠마다 다르지만, 보통 성우나 셀럽이 참여할 경우 원고 집필부터 편집 작업까지 최소 2주에서 1달까지 걸렸다”며 AI를 통해 기존 대비 최소 1/5~1/10로 시간과 비용을 줄일 수 있었을 뿐더러 기존의 음성변환(TTS)보다 자연스러워 실제 사람 목소리와 구분이 쉽지 않다는 의견이 많았다”고 평가했다.
(사진 왼쪽부터) 김태형 밀리의 서재 본부장, 이자룡 휴멜로 대표, 이홍철 KT AI/빅데이터 상무
(사진 왼쪽부터) 김태형 밀리의 서재 본부장, 이자룡 휴멜로 대표, 이홍철 KT AI/빅데이터 상무

이번 AI보이스스튜디오의 핵심기술을 개발한 이자룡 휴멜로 대표는 “기술 발전으로 AI음성합성서비스는 더욱 자연스러워지고 있는게 사실”이라며 “특히 AI보이스스튜디오에선 약 2~5분 분량의 30문장의 음성 데이터만으로 음성합성이 가능하고, 외국어를 못하는 화자도 자연스러운 발음이 가능한 것이 특징”이라고 강조했다.

예를 들어 한국어 화자의 목소리를 합성했을 경우, 영어도 한국식으로 읽는 것이 일반적이지만 AI보이스스튜디오 서비스는 영어를 못하는 사람도 네이티브처럼 발음이 가능하다. 최근 밀리의 서재에서도 영어 오디오북을 시험 제작했는데, 결과가 만족스러웠다는 후문이다.

이같은 차별화된 기술력은 KT가 휴멜로를 파트너로 선택한 이유이기도 하다. 이홍철 KT AI/빅데이터 기획담당 상무는 “KT에서도 음성합성엔진을 만들어 내부 서비스에 사용하고 있었으나, 자기 목소리 합성이 강점인 휴멜로 엔진과 결합해 시장 수요에 적극 대응할 수 있게 됐다”고 말했다. 계열사 가운데서 밀리의 서재에 우선 적용해 시너지를 낼 수 있을 것으로 봤다.

KT는 앞서 대한축구협회와 2022 카타르 월드컵 공식 응원가에 '마이AI보이스' 기술을 적용해 고(故) 유상철 감독의 목소리를 복원한 응원 내레이션을 담는가 하면, 국방부와 협업해 해외파병 장병들의 AI목소리로 자녀들에게 동화책을 읽어주는 서비스를 제공한 바 있다.

이 상무는 “앞으로 더 많은 사람들이 AI 보이스를 이용할 수 있도록 ‘기가지니 내목소리 동화 서비스’와 날씨안내, 문자, 알람 서비스 등에도 마이AI보이스 적용을 확대하는 등 저변을 넓힐 계획”이라며 “궁극적으로는 ‘디지털 휴먼(가상인간)’으로 고도화를 준비 중”이라고 밝혔다.

그는 “결국 가상인간이 표현하는 끝단의 기술은 음성합성”이라며 “오디오북 뿐 아니라 추후 최근 화제가 되고 있는 챗GPT와 같은 생성형AI(제너레이티브AI) 기술과 결합해 가능성이 무궁무진해질 것”이라고 전망했다.

이를테면 밀리의 서재가 원하는 전용 보이스를 만들거나, 엄마가 읽어주는 동화책 등의 콘텐츠를 만들어 개인화를 강화할 수도 있고 AI와 작가가 함께 쓰는 소설 등도 가능해질 것으로 보고 있다.

김태형 본부장은 “이미 책의 표지나 책 내용 요약 등에 AI를 활용하고 있다”며 “추후에는 ‘보이스뱅크’ 등을 통한 수익모델도 생각하고 있다”고 말했다. ‘보이스뱅크’의 컨셉은 여러 사람의 목소리를 마켓플레이스에 올려놓고 저작권을 공유하는 구조다. 이렇게 되면 독자가 선택한 목소리로 특정 콘텐츠를 읽어주는 형태로 진화할 수 있다.

그는 “밀리의 독자 이용자 중 ‘동화책을 가장 잘 읽어주는 사람’을 뽑는 등의 기획도 생각하고 있다”며 “향후 저변이 넓어지면 새로운 트렌드나 기회요소로 활용될 수 있을 것”이라고 예상했다.
디지털데일리 네이버 메인추가
x