“통계 방식의 자동번역기의 품질을 확보하기 위해 가장 중요한 것은 이미 번역돼 있는 문서를 얼마나 많이 확보하느냐입니다. 한일 번역의 경우 네이버가 구글보다 더 경쟁력이 높은 이유입니다.”
최근 자동통역 기술인 '엔트랜스톡(NTransTalk)'을 개발한 NHN 일본어처리팀 김준석 수석은 10일 인터뷰에서 이같이 말했다.
자동 통역은 음성인식-자동번역-음성합성 등의 요소기술이 결합된 서비스다. 사람의 음성이 입력되면 이를 텍스트로 바꿔주고(음성인식), 이 텍스트를 상대 언어로 번역한 다음(자동 번역), 번역된 텍스트를 사람이 말하는 것처럼 음성으로 전환하는(음성 합성) 기술인 것이다.
회사 측에 따르면, 엔트랜스톡은 음성인식-자동번역-음성합성까지 자동통역에 필요한 모든 요소 기술 이 NHN 독자적으로 개발됐다.
이 중에서 눈길을 끄는 것은 자동번역이다. 음성인식은 이미 네이버 모바일 앱, 네이버 링크 등에 이미 상용화 돼 있다. 자동 통역기가 제 역할을 하기 위해 가장 중요한 요소도 자동번역의 품질이다.
김 수석의 이야기처럼 자연언어처리 전문가들은 '코퍼스(Corpus)'라 불리는 언어 데이터를 수집하는데 많은 노력을 기울이다. 특히 통계 학습을 통한 자동번역의 경우 코퍼스의 양이 많을 수록 품질이 올라간다.
통계학습 엔진은 학계에 발표된 논문의 알고리듬을 활용하기 때문에 경쟁 우위에 서기 힘들다.
코퍼스를 확보하기 위한 가장 일차적인 수단은 웹에서 찾는 것이다. 웹상에서 일본어를 한국어로 번역한 문서나 한국어를 일본어로 번역해 놓은 문서를 찾아서 코퍼스로 쌓는다.
그러나 이것만으로는 한계가 있다. 일반 웹에는 이런 데이터가 많지 않기 때문이다.
흥미로운 점은 네이버의 지식iN 서비스가 이런 데이터 수집에 큰 도움이 된다는 점이다. 지식iN에는 '이 문장을 일본어로 번역해 주세요'나 '이 일본어를 번역해 달라'는 질의응답이 많이 있다. 또 여러 답변 중 질문자가 스스로 채택한 답변들은 번역의 품질도 좋다. 네이버가 제공하는 일본어 사전 서비스에 실린 예문들도 좋은 데이터다.
김 수석은 “이 데이터들은 구글에는 없는 네이버만이 가질 수 있는 데이터”라고 강조했다.
네이버는 이런 데이터 이외에도 외부 번역업체에 용역을 의뢰해 데이터를 확충하기도 했다.
네이버는 통계학습 방법론 이외에 룰 기반으로 후처리를 했다. 통계학습 방법으로 번역된 결과를 룰을 기반으로 좀더 자연스러운 문장으로 다듬는 것이다.
김 수석에 따르면, 네이버가 '글로벌 회화 2000' 문장으로 내부적으로 경쟁사와 번역 품질 테스트를 한 결과 구글이나 국내 중소기업 서비스에 비해 우수한 것으로 평가됐다.
그는 “최근 자동번역 기술의 흐름은 결국 누가 더 많은 데이터를 쌓느냐, 누가 얼마나 더 좋은 문장으로 기계학습을 시키느냐의 싸움”이라면서 “한일 자동통번역은 이런 점에서 네이버가 가장 경쟁력 있다”고 말했다.
<심재석 기자>sjs@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52유료방송 시장, 역성장 지속…케이블TV 사업자 중 SKB 유일 성장
2024-11-22 13:28:49[디즈니 쇼케이스] 판타스틱4, MCU 합류…미소 짓는 케빈 파이기
2024-11-22 12:56:31LGU+, 기업가치 제고 계획 발표…"AX 컴퍼니 구조 전환 가속화"
2024-11-22 10:18:34LG헬로 송구영 대표이사 재선임…사업 수익성 개선 '총력'
2024-11-21 18:33:01드림어스컴퍼니, 자본준비금 감액해 이익잉여금 500억원 전입
2024-11-22 14:57:25야놀자·인터파크트리플, 12월 ‘놀 유니버스’로 법인 통합
2024-11-22 14:57:10논란의 ‘퐁퐁남’ 공모전 탈락…네이버웹툰 공식 사과 “외부 자문위 마련할 것”
2024-11-22 14:23:57쏘카·네이버 모빌리티 동맹 순항…네이버로 유입된 쏘카 이용자 86%가 ‘신규’
2024-11-22 12:58:15