실시간
뉴스

AI

네이버는 ‘하이퍼클로바X’, 카카오는?…신규 AI 패밀리 라인업 나왔다

[이프카카오 AI 2024] LLM 3종·멀티모달 3종 등 총 10종 AI 라인업 공개…“한국어 능력 글로벌 모델 앞서”

김병학 카카오 카나나알파 성과리더는 23일 경기 용인시에서 열린 개발자 컨퍼런스 ‘이프카카오’ 기조 세션을 통해 카나나의 언어모델(LLM) 3종과 멀티모달 언어모델(MLLM) 3종, 비주얼 생성모델 2종과 음성모델 2종을 공개했다. [ⓒ 카카오]
김병학 카카오 카나나알파 성과리더는 23일 경기 용인시에서 열린 개발자 컨퍼런스 ‘이프카카오’ 기조 세션을 통해 카나나의 언어모델(LLM) 3종과 멀티모달 언어모델(MLLM) 3종, 비주얼 생성모델 2종과 음성모델 2종을 공개했다. [ⓒ 카카오]

[디지털데일리 이나연기자] 새로운 통합 인공지능(AI) 브랜드 ‘카나나(Kanana)’를 발표한 카카오가 새로운 AI 모델들을 공개하고 기술 및 서비스 분야에서 경쟁력 확보를 위한 성과와 계획을 공유했다.

김병학 카카오 카나나알파 성과리더는 23일 경기 용인시에서 열린 개발자 컨퍼런스 ‘이프카카오’ 기조 세션을 통해 카나나의 언어모델(LLM) 3종과 멀티모달 언어모델(MLLM) 3종, 비주얼 생성모델 2종과 음성모델 2종을 공개했다.

김 성과리더는 카나나 모델의 핵심적인 특징으로 ▲한국어와 처리에 있어 탁월한 고성능을 보유했다는 점 ▲신뢰할 수 있는 데이터로 학습해 투명성을 갖췄다는 점 ▲서비스 최적화에 맞춘 비용 효율적 모델이라는 점을 꼽았다.

다양한 크기 LLM 공개…“카나나 에센스, 한국어 논리·추론 능력 글로벌 모델 대비 우위”

대표적인 LLM 3종은 초거대 언어모델인 ‘카나나 플래그’, 중소형 언어모델인 ‘카나나 에센스’, 초경량 언어모델인 ‘카나나 나노’로 구성된다. 이 중 카나나 에센스는 카카오가 보유한 언어모델 중에서도 가장 정제된 데이터 학습과 최적화된 모델 크기로 탁월한 성능과 비용 효율성을 보여준다는 게 회사 측 설명이다.

저작권이나 개인정보 문제가 해소된 고품질 데이터를 기반으로 필터링과 데이터 큐레이션 등 전처리 작업을 진행했으며, 이를 통해 독자적 고품질 데이터셋를 구축했다. 이후 3차례 멀티 스테이지 학습을 통해 유효한 성능을 내는 방법들을 병합하고, 고성능 카나나 에센스 모델로 발전시켰다.

카카오에 따르면 카나나 에센스 모델은 현재 글로벌 최고 성능을 가진 유사 크기 대표 모델과 성능 비교에서 유사하거나 높은 성능을 보이는 것으로 나타났다. 특히, 한국어 논리 및 추론을 평가하는 KMMLU, HAE-RAE 벤치마크에서 우위를 보였다.

모바일 디바이스에서 활용 가능한 초경량 모델 ‘카나나 나노’ 역시 유사 크기 글로벌 대표 모델들과 비교했을 때 전반적인 벤치마크에서 평균적으로 탁월한 성능을 보였다. 한국어 성능에서도 압도적 성능을 나타냈다고도 덧붙였다.

카카오는 “현재 가장 큰 사이즈인 카나나 플래그 모델이 학습 중이며, 성능 좋은 모델을 만들 수 있는 노하우를 보유하게 된 만큼 지속적인 경쟁력 우위를 위해 노력하겠다”고 말했다. 또 “최적화된 다양한 고성능 모델을 지속 개발해 이용자 가치를 높이고, AI 개발 생태계 발전에 기여할 수 있도록 힘쓰겠다”고 말했다.

[ⓒ 카카오]
[ⓒ 카카오]

멀티모달 언어모델·비주얼 생성모델·음성모델 등도 소개

카카오가 보유한 MLLM 3종은 통합 멀티모달 언어모델 ‘카나나-오(o)’, 이미지·비디오 언어모델 ‘카나나-브이(v)’, 오디오 언어모델 ‘카나나-에이(a)’다. 이날 카카오는 카나나-오 모델을 중점으로 소개했다.

카나나-오는 음성인식, 텍스트, 음성합성 등 모델을 각 필요에 따라 모듈식으로 결합해 사용했던 기존 구조에서 벗어나, 여러 모달리티 데이터를 통합적으로 처리하는 형태로 개발됐다. 다양한 형태 데이터를 동시에 이해해 빠르게 결과를 생성하는 구조를 갖춰, 텍스트와 오디오를 함께 생성하며 어떤 질문을 하던 평균 1.6초 속도로 빠른 답변을 출력해 준다.

카카오에 따르면 해당 모델은 이미지 이해 성능 평가 시 자체 구축한 한국어와 한국 문화에 특화된 한국형 벤치마크에서 글로벌 모델 대비 높은 성능을 기록했다. 음성 성능 평가에서는 근소한 성능 우위를, SQA(Spoken Question Answering) 벤치마크에서는 월등히 높은 정확도를 보였다.

카카오는 향후 이미지와 오디오 뿐만 아니라, 영상 데이터를 이해하고 이미지와 영상도 생성할 수 있는 통합 멀티모달 언어모델 구조로 고도화할 예정이다.

카나나 비주얼 생성 모델 2종인 이미지 생성모델 ‘콜라주 바이 카나나’와 동영상 생성모델 ‘키네마 바이 카나나’도 공개됐다. 특히 키네마는 입력된 이미지를 바탕으로 영상을 손쉽게 생성해 준다. 간단한 마우스 조작만으로 카메라와 캐릭터 움직임을 쉽게 제어할 수 있는 게 특징이다.

김 성과리더는 “카카오는 인공일반지능(AGI)을 향한 글로벌 기업과의 경쟁에서 지속적인 도전을 이어가고 있으며, 카카오를 넘어 국내 전반에 기여할 기반 마련을 위해 다양한 AI 모델을 개발하고 있다”고 말했다.

이어 “카카오는 카나나 모델을 기반으로 이용자들에게 직접적인 도움을 줄 수 있는 AI 서비스화를 앞두고 있으며, 이를 위한 ‘서비스에 최적화된 LLM’은 좋은 성능, 비용 효율성, 튜닝을 통해 서비스의 문제를 해결하는 능력을 갖춰야 한다”고 설명했다.

한편 카카오는 이날 소개한 다양한 카나나 모델들을 토대로, 카카오 AI 서비스에 적용하는 것 외에도 카카오 크루(임직원) 생산성을 향상을 도모해 ‘AI 네이티브’ 기업으로 나가기 위한 기반을 확대하겠다고 전했다.

[ⓒ 카카오]
[ⓒ 카카오]
디지털데일리 네이버 메인추가
x