[디지털데일리 백지영기자] 솔트룩스(대표 이경일)는 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.
현재 주요 국가 공공 데이터세트 현황을 살펴보면 미국 25만2952건, 캐나다 8만1949건, 영국 5만1297건에 달한다. 이에 비해 한국은 2만9934건으로 미국의 1/9 수준이다. 특히 언어 데이터인 말뭉치 어절 보유량을 살펴보면 영어 2000억 어절, 중국어 800억 어절 대비 한국어 2억 어절로 영어의 1/1000에 불과하다.
이에 국립국어원은 TV, 라디오 등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집하여 말뭉치를 구축하고, 저작권 이용 계약까지 체결하는 말뭉치 구축 사업을 추진한다.
솔트룩스는 이미 지난해 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 ‘국어 말뭉치 연구 및 구축 사업’을 수행한 경험이 있다. 이를 바탕으로 인공지능(AI) 산업 발전을 위한 대규모 고품질 우리말 자원 구축을 진행할 예정이다.
솔트룩스 이경일 대표는 “자체 보유한 AI 원천 기술력과 AI 서비스 개발 경험을 통해 성공적으로 사업을 수행하겠다”고 강조했다.
<백지영 기자>jyp@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
"스터디그룹·선의의 경쟁 봤지?"…와이랩, 이제는 '넷플릭스'다
2025-02-23 16:48:11통신3사, MWC25서 'AI 각축전' 예고…유상임 장관 깜짝 회동할까
2025-02-23 14:57:14[OTT레이더] 인생을 건 머니게임이 시작됐다, 웨이브 ‘보물섬’
2025-02-23 12:04:50[인터뷰]“밤 9시까지 AI 열정!”...’KT에이블스쿨 전형’이 신설된 이유는?
2025-02-23 09:00:00연간 통신분쟁 전년 대비 22% 급증…”이용계약 관련 분쟁이 절반”
2025-02-21 17:39:30[DD퇴근길] 계속되는 '망 사용료 갈등'…MWC, 논의의 장으로
2025-02-21 17:28:22넥슨 ‘FC 온라인’, 이스포츠 대회 개편안 발표… 구단 프랜차이즈 도입
2025-02-24 09:29:13"스터디그룹·선의의 경쟁 봤지?"…와이랩, 이제는 '넷플릭스'다
2025-02-23 16:48:11신작 시험대, ‘스팀 넥스트 페스트’ 개막… K-게임도 출전 준비 완료
2025-02-23 12:03:00[툰설툰설] 신분차이 로맨스…재벌과의 인터뷰 vs 품격을 배반한다
2025-02-23 11:42:17SM·카카오엔터 합작 英 보이그룹 '디어앨리스' 공식 데뷔
2025-02-21 17:28:39[DD퇴근길] 계속되는 '망 사용료 갈등'…MWC, 논의의 장으로
2025-02-21 17:28:22