[디지털데일리 이나연 기자] 카카오브레인이 자체 개발한 멀티모달 언어모델(MLLM) 오픈소스 ‘허니비(Honeybee)’를 ‘깃허브(Github)’에 공개했다.
카카오브레인은 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하기 위한 목적이라며 19일 이같이 밝혔다. 멀티모달 언어모델에 관한 연구는 공개된 모델 수가 적고, 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황임을 고려했다는 것이 회사 측 설명이다.
MLLM은 이미지와 명령어(프롬프트)를 입력하면, 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델(Large Language Model)에서 확장된 형태다. 이미지와 텍스트를 모두 입력할 수 있어 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력이 있다.
예를 들어 허니비에 ‘농구 경기 중인 두 명의 선수’ 이미지와 함께 ‘왼쪽 선수는 몇 번 우승했나요?’라는 질문을 영어로 입력하면 ‘허니비’가 입력된 이미지 내용과 질문을 종합적으로 이해하고 답변을 생성해 낸다.
카카오브레인에 따르면 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등의 벤치마크(성능 실험)에서 허니비가 공개된 타사 MLLM 대비 최고 성능을 달성했다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에선 2800점 만점 중 1977점을 받았다.
또한 관련 논문 ‘Honeybee: Locality-enhanced Projector for Multimodal LLM(허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터)’은 지난해 논문 공개 사이트 ‘아카이브(arXiv)’에 게재됐다.
논문은 이 기술에 대해 “이미지 데이터를 처리해 딥러닝 모델이 더 효과적으로 학습하고 이해할 수 있도록 돕는 기술”이라며 “시각 프로젝터(Visual projector)가 사전 훈련된 비전 인코더와 대규모 언어 모델(LLM)을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 깊게 하면서 LLM 능력을 활용할 수 있다”라고 설명했다.
김일두 카카오브레인 각자 대표는 “허니비를 활용한 각종 서비스 확장을 고려 중”이라며 “더욱 발전된 AI 모델 확보를 위해 끊임없이 연구 개발할 것”이라고 전했다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
SKT 유영상 “돈버는 AI 성과 본격화”…AI 성과 가시화 재차 강조
2025-04-04 10:44:29'尹 운명의 날'…통신3사, 탄핵선고 앞두고 총력 대비
2025-04-04 10:08:18[단독] 유료방송 위기여파 PP로…“콘텐츠 사용료 약 1200억원 감소 전망”
2025-04-03 17:44:35[DD퇴근길] 5대 AI에게 물었다…"尹 탄핵심판 결과, 어떨 것 같니?"
2025-04-03 17:13:51[인터뷰] 이해민 의원, "美 통상마찰 없이 '망 무임승차' 해결하려면"
2025-04-03 15:59:44KT알파 쇼핑, 국내 로봇청소기 시장 점유율 1위 ‘로보락’ 최신상 판매
2025-04-03 13:35:10[윤석열 파면] "윤석열 대통령을 파면한다" 한 마디에 '카톡' 불 붙었다
2025-04-04 11:46:30크래프톤 ‘인조이’, 출시 1주 만에 100만장 판매… ‘배그’보다 빨랐다
2025-04-04 10:44:51"취향 따라 고르는 뷰티"…29CM, 첫 '이구뷰티위크' 연다
2025-04-04 10:44:10中 '폭싹 속았수다' 도둑 시청 인정?…장가계시 홍보 수단으로 사용
2025-04-04 09:35:23[네카오는 지금] 대통령 탄핵심판 선고 임박, 트래픽 폭증 대응책은?
2025-04-03 18:11:06[DD퇴근길] 5대 AI에게 물었다…"尹 탄핵심판 결과, 어떨 것 같니?"
2025-04-03 17:13:51