전세계 AI 산·학·연이 공개하는 AI 논문, 연구 결과 중에는 꽤 흥미로운 주제가 많습니다. 다만 대부분 복잡하고 읽기 어렵습니다. 일반인도 AI 트렌드 추종에 유익한 인사이트로 활용할 수 있도록, 이를 AI리서치뷰로 쉽게 압축해 드립니다. <편집자주>
[디지털데일리 이건한 기자] 최근 전세계 AI 패권 경쟁에 한국이 뒤쳐졌다는 위기감이 높아지면서 국내 AI 선두기업들은 추격의 고삐를 바짝 죄고 있습니다. 그중 카카오는 지난해 '카나나(Kanana)'라는 브랜드의 자체 AI 모델 라인업 확정 이후 텍스트부터 이미지, 오디오까지 통합 처리할 수 있는 한국형 '멀티모달 AI' 개발에 전념 중인데요. 특히 카카오 같은 기업의 AI 모델은 우리가 널리 사용하는 일상 서비스들과도 밀접한 연관성을 갖습니다. 그만큼 개발 현황과 전략, 성능과 품질 등에도 자연스레 관심이 쏠립니다.
텍스트-이미지-음성 등을 통합 처리할 수 있게 된 카나나-o 개발 과정을 묘사한 이미지 (ⓒ ChatGPT gen)
■ 읽어볼 이유
지난 1일 카카오 테크블로그에 게시된 '카나나-o' 개발기는 카카오가 글로벌급 AI 모델 개발 경쟁에서 신속한 추격을 위해 어떤 전략을 취하고 있는지, 또한 한국어 특화 멀티모달AI 개발의 의미는 무엇인지 생각해볼만한 이야기를 담고 있습니다. 참고로 현재 카나나 라인업은 이미지 처리에 특화된 'Kanana-v(비전)', 음성 처리에 특화된 'Kanana-a(오디오)', 텍스트, 이미지, 음성 통합 처리를 지원하는 'Kanana-o(옴니)' 등의 모델로 구분됩니다. 카카오는 지난해 말 'Kanana-v'에 관한 상세 내용을 미리 공개했고 이번 개발기에서는 카나나 'a'와 'o' 버전에 대한 현황을 소개했습니다.
카나나 AI 모델 라인업 (ⓒ 카카오)
■ 핵심 내용
① 카나나-a: 음성은 글자 다음으로 편리한 입력 수단입니다. 하지만 “안녕하세요” 같은 1초짜리 문장도 텍스트가 아닌 음성 데이터로 전환하면 무려 1만6000개의 연속된 숫자 데이터로 변환됩니다. 이를 AI에게 그대로 전달할 경우 막대한 연산량(서비스 비용)과 지연(반응속도)이 발생하므로 음성 AI 모델은 데이터 처리에 관한 효율화 노하우가 중요합니다.
카카오는 우선 96개 언어에 대한 정확한 음성인식, 초당 1만6000개의 음성데이터를 50개의 특징 벡터(LLM, 대형언어모델이 이해하기 쉬운 데이터)로 변환 가능한 오픈AI의 '위스퍼(Whisper) 모델을 바탕 모델로 채택했습니다. 그러나 위스퍼를 이용해도 여전히 분당 3000개 이상 생성되는 특징 벡터는 LLM에게 부담스럽습니다. 이에 카나나-v 모델에서 적용한 카카오의 데이터 최적화 모델을 음성 처리에 맞춰 변형, 3000개의 데이터를 600개 이하 수준으로 줄이는 데 성공했습니다.
② 카카오는 음성 생성 단계에서도 데이터 처리 효율화에 집중했습니다. 관건은 데이터의 단순 크기 압축이 아니라 텍스트에 없는 '말투', '억양', '감정', '속도' 등의 비언어적인 데이터까지 손실 없이 담아내는 것입니다. 카카오는 이 문제에도 위스퍼처럼 세계적으로 검증된 모델을 활용 중입니다. 다만 글로벌 모델들은 한국어 음성처리 성능이 다소 부족합니다. 그러나 사실상 한국인은 한국어 발화로 대부분의 AI 서비스를 이용하므로 별도의 한국어 음성합성 특화 튜닝이 필수인데요. 이 과제를 해결하기 위해 카카오는 공개 데이터, 자체 수집 데이터를 포함한 고성능 음성 토크나이저(Tokenizer)를 직접 개발 중이라고 밝혔습니다.
③ 카나나-o: 통합 멀티모달 모델인 카카나-o는 카나나 a, v와 같은 기반을 공유합니다. 하지만 각 모델을 동일한 데이터로 분리해 학습하는 건 비효율적입니다. 개별 모델 업데이트 시 카나나-o를 처음부터 다시 학습해야 하고, 큰 자원과 시간 비용이 드는 모델 학습을 매번 전체적으로 진행하는 것도 낭비이기 때문입니다. 이에 카카오는 최근 LLM 커뮤니티에서 널리 쓰이는 '모델 병합' 기법을 적용해 카나나 a, v를 효율적으로 병합한 모델을 만든 후 일부 추가 학습 단계만 진행하는 형태로 최적화에 성공했습니다.
또한 '텍스트-이미지-오디오'로 이어지는 삼중 감각을 카나나가 동시에 처리할 수 있도록 독자적인 기법도 적용합니다. 그 중 한가지 방법은 이미 신뢰성이 검증된 카나나-v의 이미지-텍스트 데이터 쌍을 통해 생성되는 텍스트 답변을 다시 음성전환 모델(TTS)로 생성해 3종류의 다른 데이터가 자연스럽게 매칭되도록 만든 겁니다. 이어 신뢰성 평가에서도 유사한 방식을 적용합니다. 우선 텍스트 기반의 질문을 음성으로 전환해 이미지와 함께 카나나-o에 입력하고 , 다시 텍스트로 출력된 답변을 평가하는 식이지요. 텍스트-이미지-오디오는 형태만 다를 뿐, 같은 질문의 답에는 같은 맥락 정보를 유지합니다. 카카오는 이를 이용해 효과적이로 신뢰도 높은 모델 성능 평가가 가능해졌다는 설명입니다.
④ 성능 및 개선점: 한국어에 우선 집중한 만큼 kanana-o는 한국어 감정 인식 정확도에서 오픈AI의 GPT-4o 대비 2배 가까운 점수를 획득했습니다. 또한 각 지역별 사투리를 정확히 구분하고, 사투리를 다시 표준어로 변환하는 것도 가능했습니다. 글로벌 진출에 대비한 영어 음성 처리도 역시 기본 정확도와 감정인식 수준이 높게 측정됐습니다. 개선점으론 '멀티 턴 대화 능력', 즉 하나의 주제로 인간과 AI가 일관성 있게 긴 대화를 주고받을 수 있는 능력이 꼽혔습니다. 또한 AI의 발화 중에도 인간이 끼어들어 말할 수 있는 기능, 폭력적이지 않고 안전한 문장만 생성하는 안전성 보완 등도 해결해야 할 과제로 제시됐습니다.
사투리 입력을 표준어로 변환하는 카나나 데모 시연 영상 中 (ⓒ 카카오)
■ 시사점
카나나-o는 아직 미완성 모델이지만 다양한 기대를 남깁니다. 특히 지난해 카카오가 발표한 'AI 오케스트레이션(Orchestration) 전략'이 현업에서도 효과를 내고 있는 것으로 풀이됩니다. 오케스트레이션은 모든 구성 요소를 직접 개발하지 않습니다. 대신 다양한 목적에 최적화된 모듈을 레고 조립하듯 연결해 하나의 효과적인 시스템을 구성하는 기법입니다. 본문에서 음성인식에 오픈AI의 '위스퍼'를 도입해 기본적인 시간과 비용을 단축하고, 자체 모델과 노하우를 결합해 훨씬 개선된 결과물을 만든 과정이 좋은 예입니다. 이 같은 노하우를 통해 글로벌 AI 모델 경쟁을 위한 추격 속도 가속화도 기대됩니다. 나아가 실전에서 좋은 성과를 낸다면 다른 국내 AI 기업들에게 벤치마킹 사례도 될 수 있습니다.
또한 AI가 일상 서비스에 점점 더 깊숙이 침투하면서, 한국어를 더욱 잘 알아듣는 AI의 중요성도 높아진 시기입니다. 특히 높은 접근성을 위한 사투리 인식, 의사를 명확히 전달하기 위한 감정 인식의 정교함은 영어권 국가들이 한국어 서비스 개발 시 높은 품질을 달성하기 어려운 영역입니다. 이 가운데 카나나가 영어 음성 처리 능력이 상대적으로 뒤처지지 않았고, 한국어 역량은 외산 모델을 압도한 점 역시 향후 국내 시장에서의 효용이 기대되는 점입니다. 궁극적으로 이를 카카오의 국내 AI 비즈니스 경쟁력으로, 디지털 소외계층에 대한 접근성 개선으로 승화할 수 있다면 카카오와 사회 양측의 이익이 됩니다.
이 밖에도 한국만의 주권(Sovereign) AI 개발 중요성이 나날이 높아지는 요즘입니다. 비록 동일선상의 경쟁은 아닐지라도, 국내 기업이 자체 개발한 범용 멀티모달AI 등장이 멀지 않은 점은 기대를 안고 지켜볼 만한 대목입니다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
KT 통신 성장 한계, AI·부동산이 견인…AX 매출 가시화 시동(종합)
2025-05-09 12:15:13“부동산 분양 이익반영” KT, 1분기 영업익 전년比 36%↑
2025-05-09 09:46:41LGU+, 실속형 스마트폰 '갤럭시 버디4' 단독 출시
2025-05-09 09:44:32최민희 “SKT, 해킹 한달전 이미 비정상 트래픽 감지”
2025-05-08 20:43:35SKT 위약금 면제 공방 고조…질문·답변 ‘복붙’ 2차 청문회(종합)
2025-05-08 18:38:42[컨콜] 무난한 성적 받은 홍범식號 LGU+…키워드는 ‘익시오·파주 AIDC’ (종합)
2025-05-08 17:27:10[컨콜종합] 네이버, 1분기 실적 '쑥'…AI 타고 광고·콘텐츠 삼각 성장
2025-05-09 11:35:18[컨콜] 출시 2개월 된 ‘네이버플러스 스토어’ 합격점…“이용자 확대 기여”
2025-05-09 10:30:29[컨콜] 네이버, AI 브리핑·개인화 추천으로 '버터컬' 서비스 강화
2025-05-09 10:05:46[컨콜] 네이버 최수연 “컬리와의 제휴 통해 커머스 플랫폼 전반 경쟁력 높일 것”
2025-05-09 09:46:15"광고 보고 무료로"…쿠팡플레이, 멤버십 비결제 회원까지 시청층 확대
2025-05-09 09:45:13"D-6" 넷마블 '세븐나이츠 리버스' 출시 코앞…온·오프라인서 관심 집중
2025-05-09 09:00:00