“통계 방식의 자동번역기의 품질을 확보하기 위해 가장 중요한 것은 이미 번역돼 있는 문서를 얼마나 많이 확보하느냐입니다. 한일 번역의 경우 네이버가 구글보다 더 경쟁력이 높은 이유입니다.”
최근 자동통역 기술인 '엔트랜스톡(NTransTalk)'을 개발한 NHN 일본어처리팀 김준석 수석은 10일 인터뷰에서 이같이 말했다.
자동 통역은 음성인식-자동번역-음성합성 등의 요소기술이 결합된 서비스다. 사람의 음성이 입력되면 이를 텍스트로 바꿔주고(음성인식), 이 텍스트를 상대 언어로 번역한 다음(자동 번역), 번역된 텍스트를 사람이 말하는 것처럼 음성으로 전환하는(음성 합성) 기술인 것이다.
회사 측에 따르면, 엔트랜스톡은 음성인식-자동번역-음성합성까지 자동통역에 필요한 모든 요소 기술 이 NHN 독자적으로 개발됐다.
이 중에서 눈길을 끄는 것은 자동번역이다. 음성인식은 이미 네이버 모바일 앱, 네이버 링크 등에 이미 상용화 돼 있다. 자동 통역기가 제 역할을 하기 위해 가장 중요한 요소도 자동번역의 품질이다.
김 수석의 이야기처럼 자연언어처리 전문가들은 '코퍼스(Corpus)'라 불리는 언어 데이터를 수집하는데 많은 노력을 기울이다. 특히 통계 학습을 통한 자동번역의 경우 코퍼스의 양이 많을 수록 품질이 올라간다.
통계학습 엔진은 학계에 발표된 논문의 알고리듬을 활용하기 때문에 경쟁 우위에 서기 힘들다.
코퍼스를 확보하기 위한 가장 일차적인 수단은 웹에서 찾는 것이다. 웹상에서 일본어를 한국어로 번역한 문서나 한국어를 일본어로 번역해 놓은 문서를 찾아서 코퍼스로 쌓는다.
그러나 이것만으로는 한계가 있다. 일반 웹에는 이런 데이터가 많지 않기 때문이다.
흥미로운 점은 네이버의 지식iN 서비스가 이런 데이터 수집에 큰 도움이 된다는 점이다. 지식iN에는 '이 문장을 일본어로 번역해 주세요'나 '이 일본어를 번역해 달라'는 질의응답이 많이 있다. 또 여러 답변 중 질문자가 스스로 채택한 답변들은 번역의 품질도 좋다. 네이버가 제공하는 일본어 사전 서비스에 실린 예문들도 좋은 데이터다.
김 수석은 “이 데이터들은 구글에는 없는 네이버만이 가질 수 있는 데이터”라고 강조했다.
네이버는 이런 데이터 이외에도 외부 번역업체에 용역을 의뢰해 데이터를 확충하기도 했다.
네이버는 통계학습 방법론 이외에 룰 기반으로 후처리를 했다. 통계학습 방법으로 번역된 결과를 룰을 기반으로 좀더 자연스러운 문장으로 다듬는 것이다.
김 수석에 따르면, 네이버가 '글로벌 회화 2000' 문장으로 내부적으로 경쟁사와 번역 품질 테스트를 한 결과 구글이나 국내 중소기업 서비스에 비해 우수한 것으로 평가됐다.
그는 “최근 자동번역 기술의 흐름은 결국 누가 더 많은 데이터를 쌓느냐, 누가 얼마나 더 좋은 문장으로 기계학습을 시키느냐의 싸움”이라면서 “한일 자동통번역은 이런 점에서 네이버가 가장 경쟁력 있다”고 말했다.
<심재석 기자>sjs@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
[DD퇴근길] '애플' 美 대규모 투자, 트럼프 덕?…스벅, 아메리카노 가격 오른다
2025-01-20 17:07:39쇼핑엔티, 설 수요 높은 농축수산물 할인 판매…“정부와 합심해 지원”
2025-01-20 17:03:41[오징어게임2 이펙트] 기대효과 반감?…'엑스오, 키티2', 3일 연속 1위
2025-01-20 17:02:09김태규 직무대행 "TV수신료 통합징수시 혼란 발생할 것"
2025-01-20 16:24:3923일 이진숙 위원장 운명의 날…헌재, 탄핵심판 선고일 확정
2025-01-20 15:35:00가온전선, 연 매출 사상 최고치 경신…"북미 수출·지앤피 실적↑"
2025-01-20 14:50:59넥슨 ‘드리프트’, 오버 드라이브 전환… 반등 질주 시작하나
2025-01-20 14:51:30행안부, 카톡 알림톡 도입했더니…행정 예산 연 40억원 절감
2025-01-20 14:51:12“더 짧고 재밌게”…네이버, 새해도 숏폼·AI 갈고닦기
2025-01-20 14:14:23