[디지털데일리 이종현기자] 아마존웹서비스(AWS)와 SK텔레콤은 오픈소스 자연어 처리(NLP) 모델인 한국어 GPT-2 모델(이하 KoGPT-2)을 공개했다고 28일 밝혔다.
GPT-2는 머신러닝 알고리즘을 활용해 입력된 샘플 텍스트를 분석해 구문론적, 문법적, 정보적 일관성을 갖춘 텍스트로 완성하고 생성하는 자연어 처리 모델이다. 한국어로 학습된 오픈소스 기반 GPT-2 모델인 KoGPT-2는 한국어 해석이 요구되는 광범위한 애플리케이션(앱)의 머신러닝 성능을 향상시킬 수 있다.
개발자들은 KoGPT-2를 직접 사용하거나 추가 학습을 함으로써 보다 적은 자원과 NLP 지식으로도 대규모 NLP 업무를 빠르게 처리할 수 있게 됐다. KoGPT-2는 챗봇, 텍스트 감성 예측, 텍스트 분석 기반 응답 생성 등에 사용할 수 있다.
AWS와 SK텔레콤은 양사의 NLP 전문 지식과 대규모 학습 경험을 기반으로 KoGPT-2 모델을 학습시켰다.
KoGPT-2는 깃허브 저장소에서 이용 가능하다. 관심 있는 개발자는 모델과 관련 소스를 다운로드해 프로젝트에 사용, 수정 및 적용할 수 있다.
에릭 데이비스 SK텔레콤 글로벌 인공지능(AI) 개발그룹 그룹장은 “머신러닝은 디지털 전환을 촉진할 수 있는 가능성으로 많은 관심을 받고 있지만 대부분 기업은 KoGPT-2 모델과 같은 대규모 모델 개발에 어려움을 겪고 있다”며 “SK텔레콤과 AWS가 협력해 개발한 KoGPT-2가 노년층을 위한 챗봇, 코로나19와 관련된 가짜 뉴스 차단을 위한 검색 엔진 등 혁신적인 앱을 개발하는 중소기업과 스타트업의 기술 역량 발전에 이바지하길 바란다”고 말했다.
미셀 리 AWS 머신러닝 솔루션즈 랩 부사장은 “KoGPT-2와 같은 고급 언어 모델 개발을 위해서는 많은 양의 학습 데이터뿐만 아니라 상당한 양의 컴퓨팅 자원, 자연어 처리에 대한 지식이 필요하다”며 “AWS는 고성능 컴퓨팅 기반의 머신러닝 서비스를 제공해 한국 고객들의 문제 해결을 지속 지원할 것”이라고 전했다.