[디지털데일리 이나연 기자] 카카오브레인이 자체 개발한 멀티모달 언어모델(MLLM) 오픈소스 ‘허니비(Honeybee)’를 ‘깃허브(Github)’에 공개했다.
카카오브레인은 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하기 위한 목적이라며 19일 이같이 밝혔다. 멀티모달 언어모델에 관한 연구는 공개된 모델 수가 적고, 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황임을 고려했다는 것이 회사 측 설명이다.
MLLM은 이미지와 명령어(프롬프트)를 입력하면, 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델(Large Language Model)에서 확장된 형태다. 이미지와 텍스트를 모두 입력할 수 있어 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력이 있다.
예를 들어 허니비에 ‘농구 경기 중인 두 명의 선수’ 이미지와 함께 ‘왼쪽 선수는 몇 번 우승했나요?’라는 질문을 영어로 입력하면 ‘허니비’가 입력된 이미지 내용과 질문을 종합적으로 이해하고 답변을 생성해 낸다.
카카오브레인에 따르면 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등의 벤치마크(성능 실험)에서 허니비가 공개된 타사 MLLM 대비 최고 성능을 달성했다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에선 2800점 만점 중 1977점을 받았다.
또한 관련 논문 ‘Honeybee: Locality-enhanced Projector for Multimodal LLM(허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터)’은 지난해 논문 공개 사이트 ‘아카이브(arXiv)’에 게재됐다.
논문은 이 기술에 대해 “이미지 데이터를 처리해 딥러닝 모델이 더 효과적으로 학습하고 이해할 수 있도록 돕는 기술”이라며 “시각 프로젝터(Visual projector)가 사전 훈련된 비전 인코더와 대규모 언어 모델(LLM)을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 깊게 하면서 LLM 능력을 활용할 수 있다”라고 설명했다.
김일두 카카오브레인 각자 대표는 “허니비를 활용한 각종 서비스 확장을 고려 중”이라며 “더욱 발전된 AI 모델 확보를 위해 끊임없이 연구 개발할 것”이라고 전했다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52유료방송 시장, 역성장 지속…케이블TV 사업자 중 SKB 유일 성장
2024-11-22 13:28:49[디즈니 쇼케이스] 판타스틱4, MCU 합류…미소 짓는 케빈 파이기
2024-11-22 12:56:31LGU+, 기업가치 제고 계획 발표…"AX 컴퍼니 구조 전환 가속화"
2024-11-22 10:18:34LG헬로 송구영 대표이사 재선임…사업 수익성 개선 '총력'
2024-11-21 18:33:01드림어스컴퍼니, 자본준비금 감액해 이익잉여금 500억원 전입
2024-11-22 14:57:25야놀자·인터파크트리플, 12월 ‘놀 유니버스’로 법인 통합
2024-11-22 14:57:10논란의 ‘퐁퐁남’ 공모전 탈락…네이버웹툰 공식 사과 “외부 자문위 마련할 것”
2024-11-22 14:23:57쏘카·네이버 모빌리티 동맹 순항…네이버로 유입된 쏘카 이용자 86%가 ‘신규’
2024-11-22 12:58:15풍전등화 구글, 美법무부 “검색 독점 방지 위해 크롬 팔아라”
2024-11-22 09:51:10