카카오 자체 멀티모달 LLM ‘카나나-v’...어떻게 개발되고 있을까

실시간
뉴스

e비즈*솔루션

카카오 자체 멀티모달 LLM ‘카나나-v’...어떻게 개발되고 있을까

디지털데일리 발행일 2024-12-05 18:21:43

오병훈 기자

URL복사

[디지털데일리 오병훈기자] 카카오가 텍스트와 이미지를 이해하는데 특화된 멀티모달 대형언어모델(LLM) 고도화 작업 중간 결과와 향후 개발 계획을 공개했다.

5일 차범준 카카오 카나나알파 조직 개발자는 카카오테크 공식 기술 블로그를 통해 자체적으로 개발 중인 멀티모달 LLM ‘카나나-v’의 개발 진행 상황을 밝혔다. 카나나-v는 앞서 공개된 LLM ‘허니비’ 연구 성과를 기반으로 개발된 모델로, 이미지와 텍스트를 다루는 것을 목적으로 고도화가 진행 중이다.

글로벌 AI 모델 시장에서 멀티모달 LLM은 다양하지만, 한국어 기반 이미지에 대한 텍스트 추출·이해 능력에 특화된 모델은 찾아보기 힘든 실정이다. 카나나-V는 한국어를 기반으로 된 아날로그 문서 이미지를 기반으로 광학문자인식(OCR)을 비롯한 문서 이해, 포스터 그림·문자 이해 등에서 강점을 보인다는 설명이다.

차 개발자는 블로그에서 “자체 개발한 벤치마크로 타사 모델과 비교해보니 ‘한국형 지식’ 영역에서 두 번째로 높은 성능을 기록했다”며 “향후 한국형 지식 관련 데이터를 지속적으로 확보해, 해당 영역에서 가장 높은 성능을 달성할 수 있도록 개선할 계획”이라고 전했다.

한국어 특화에 집중한다고는 하나, 글로벌 경쟁력도 등한시 할 수는 없는 상황이다. 카카오는 고품질 영어 데이터도 활용해 카나나-V모델 역량을 강화함과 동시에, 이를 한국어 도메인으로 확장하는 전략으로 효율성을 높일 계획이다. 영어 기반 성능은 모델 확장성과 글로벌 경쟁력을 확보하는 데 필수적이라는 설명이다.

이어 차 개발자는 “고성능의 멀티모달 언어모델을 학습하기 위해서는 고품질의 대규모 데이터셋은 필수요소”라며 ”풍부한 양질 데이터를 확보하기 위해서는 그만큼 많은 비용과 시간이 소요되며, 퍼블릭 데이터를 사용할 때에는 라이선스 또한 신경 써서 사용해야 한다”고 강조했다.

차 개발자는 데이터 수집 및 학습 과정에 대해서도 소개했다. 카나나-v에 영어 데이터를 추가할 때는 관련 직원이 직접 데이터를 검토하고, 모델 학습에 적합하도록 전처리한다는 것이 차 개발자 설명이다. 이후 정제한 데이터를 직접 학습에 이용해 보고 나서 데이터의 가치를 판단하고 어느 정도의 양을 사용할지 등을 결정하는 방식이다.

영어와 달리 한국어 경우, 멀티모달 언어모델을 위한 퍼블릭 데이터를 찾기 어렵기 때문에, 거의 모든 데이터를 개발자들이 직접 제작했다. 먼저, 멀티모달 언어모델만을 위한 데이터가 아니더라도 사용가능한 모든 한국어 데이터셋을 모았다. 카카오 그룹 내 확보하고 있던 한국어 데이터들과, AI HUB에 공개된 한국어 데이터를 가져왔다.

카나나-v 개발팀은 이렇게 모은 데이터셋들을 멀티모달 언어모델이 학습할 수 있도록 이미지에 대한 ‘질문-답변’ 형태로 변환했다. 기존 데이터셋에 따라 변환 과정이 달라지는데, 이미지만 활용하고 적절한 질문-답변을 새로 만들어야 했던 경우도 있었다.

차 개발자는 “결과적으로 데이터를 모았음에도 한국어 데이터는 상대적으로 부족했다”며 “위 방식으로 모을 수 있었던 한국어 데이터가 적은 양은 아니었지만, 도메인 다양성이 부족하다는 한계점이 있었다고 덧붙였다.

개발팀이 고안한 해결책은 데이터가 부족한 도메인을 살펴보고, 필요한 데이터의 품질과 종류에 따라 수집 방법을 추가하는 것이었다. 고품질 데이터가 필요한 경우 직접 이미지를 모으고 어노테이션(각 데이터에 태그를 지정하는 과정)을 수행해 데이터셋을 구축했다.

마지막으로 차 개발자는 “현재 카카오에서는 카나나-v 외에도, 통합 멀티모달 언어모델 카나나-o를 개발 중이다” “오는 2025년에는 비디오 입력까지도 처리할 수 있는 모델까지 확장할 예정이다. AI가 우리 일상에 보다 실질적인 도움을 제공하는 진정한 파트너로서 발전하길 기대하고 있다”고 강조했다.