이미지 인식해 텍스트로 답한다…카카오브레인, MLLM ‘허니비’ 공개

실시간
뉴스

이미지 인식해 텍스트로 답한다…카카오브레인, MLLM ‘허니비’ 공개

디지털데일리 발행일 2024-01-19 11:20:22

이나연 기자

URL복사

멀티모달 언어모델 오픈소스 ‘허니비’ 깃허브에 공개

[디지털데일리 이나연 기자] 카카오브레인이 자체 개발한 멀티모달 언어모델(MLLM) 오픈소스 ‘허니비(Honeybee)’를 ‘깃허브(Github)’에 공개했다.

카카오브레인은 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하기 위한 목적이라며 19일 이같이 밝혔다. 멀티모달 언어모델에 관한 연구는 공개된 모델 수가 적고, 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황임을 고려했다는 것이 회사 측 설명이다.

MLLM은 이미지와 명령어(프롬프트)를 입력하면, 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델(Large Language Model)에서 확장된 형태다. 이미지와 텍스트를 모두 입력할 수 있어 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력이 있다.

예를 들어 허니비에 ‘농구 경기 중인 두 명의 선수’ 이미지와 함께 ‘왼쪽 선수는 몇 번 우승했나요?’라는 질문을 영어로 입력하면 ‘허니비’가 입력된 이미지 내용과 질문을 종합적으로 이해하고 답변을 생성해 낸다.

카카오브레인에 따르면 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등의 벤치마크(성능 실험)에서 허니비가 공개된 타사 MLLM 대비 최고 성능을 달성했다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에선 2800점 만점 중 1977점을 받았다.

또한 관련 논문 ‘Honeybee: Locality-enhanced Projector for Multimodal LLM(허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터)’은 지난해 논문 공개 사이트 ‘아카이브(arXiv)’에 게재됐다.

논문은 이 기술에 대해 “이미지 데이터를 처리해 딥러닝 모델이 더 효과적으로 학습하고 이해할 수 있도록 돕는 기술”이라며 “시각 프로젝터(Visual projector)가 사전 훈련된 비전 인코더와 대규모 언어 모델(LLM)을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 깊게 하면서 LLM 능력을 활용할 수 있다”라고 설명했다.

김일두 카카오브레인 각자 대표는 “허니비를 활용한 각종 서비스 확장을 고려 중”이라며 “더욱 발전된 AI 모델 확보를 위해 끊임없이 연구 개발할 것”이라고 전했다.