네이버 한-일 통역기 품질의 비결은 지식iN?

실시간
뉴스

소프트웨어

네이버 한-일 통역기 품질의 비결은 지식iN?

디지털데일리 발행일 2013-01-11 07:35:22

심재석 기자

URL복사

“통계 방식의 자동번역기의 품질을 확보하기 위해 가장 중요한 것은 이미 번역돼 있는 문서를 얼마나 많이 확보하느냐입니다. 한일 번역의 경우 네이버가 구글보다 더 경쟁력이 높은 이유입니다.”

최근 자동통역 기술인 '엔트랜스톡(NTransTalk)'을 개발한 NHN 일본어처리팀 김준석 수석은 10일 인터뷰에서 이같이 말했다.

자동 통역은 음성인식-자동번역-음성합성 등의 요소기술이 결합된 서비스다. 사람의 음성이 입력되면 이를 텍스트로 바꿔주고(음성인식), 이 텍스트를 상대 언어로 번역한 다음(자동 번역), 번역된 텍스트를 사람이 말하는 것처럼 음성으로 전환하는(음성 합성) 기술인 것이다.

회사 측에 따르면, 엔트랜스톡은 음성인식-자동번역-음성합성까지 자동통역에 필요한 모든 요소 기술 이 NHN 독자적으로 개발됐다.

이 중에서 눈길을 끄는 것은 자동번역이다. 음성인식은 이미 네이버 모바일 앱, 네이버 링크 등에 이미 상용화 돼 있다. 자동 통역기가 제 역할을 하기 위해 가장 중요한 요소도 자동번역의 품질이다.

김 수석의 이야기처럼 자연언어처리 전문가들은 '코퍼스(Corpus)'라 불리는 언어 데이터를 수집하는데 많은 노력을 기울이다. 특히 통계 학습을 통한 자동번역의 경우 코퍼스의 양이 많을 수록 품질이 올라간다.

통계학습 엔진은 학계에 발표된 논문의 알고리듬을 활용하기 때문에 경쟁 우위에 서기 힘들다.

코퍼스를 확보하기 위한 가장 일차적인 수단은 웹에서 찾는 것이다. 웹상에서 일본어를 한국어로 번역한 문서나 한국어를 일본어로 번역해 놓은 문서를 찾아서 코퍼스로 쌓는다.

그러나 이것만으로는 한계가 있다. 일반 웹에는 이런 데이터가 많지 않기 때문이다.

흥미로운 점은 네이버의 지식iN 서비스가 이런 데이터 수집에 큰 도움이 된다는 점이다. 지식iN에는 '이 문장을 일본어로 번역해 주세요'나 '이 일본어를 번역해 달라'는 질의응답이 많이 있다. 또 여러 답변 중 질문자가 스스로 채택한 답변들은 번역의 품질도 좋다. 네이버가 제공하는 일본어 사전 서비스에 실린 예문들도 좋은 데이터다.