구글, 오픈소스 비전AI ‘팔리젬마2’ 공개…“화학공식 인식·공간추론 뛰어나”

실시간
뉴스

e비즈*솔루션

구글, 오픈소스 비전AI ‘팔리젬마2’ 공개…“화학공식 인식·공간추론 뛰어나”

디지털데일리 발행일 2024-12-06 15:33:42

오병훈 기자

URL복사

[ⓒ구글 개발자 블로그]

[디지털데일리 오병훈기자] 구글이 오픈소스 대형언어모델(LLM) ‘젬마’를 기반으로 한 새로운 비전 인공지능(AI) 모델 ‘팔리젬마2’를 공개했다. 해당 모델은 이미지를 읽고 맥락을 해석, 관련 설명 및 요약 등에 특화됐다.

5일(현지시간) 구글은 개발자 블로그 ‘구글 폴 디로퍼’를 통해 팔리젬마2를 처음 소개했다. 팔리젬마2는 앞서 공개된 ‘젬마2’ 모델을 기반으로 구축됐다. 오픈소스 AI 모델로써 더 쉽고 편리한 미세조정(파인튜닝) 과정도 제공한다.

대표적인 특징은 단순한 이미지 식별을 넘어 이미지 내에 내포된 감정, 맥락을 읽어 내 이와 관련한 캡션을 실시간으로 생성할 수도 있다는 점이다. 이 같은 팔리젬마2 성능은 ▲화학 공식 인식 ▲악보 인식 ▲공간 추론 ▲흉부 X선 보고서 생성 등에서 높은 활용성을 보여줄 수 있다는 것이 구글 측 설명이다. 또, 팔리젬마2는 사용자 작업 환경에 맞춘 성능을 제공하기 위해 다양한 크기(3B, 10B, 28B 매개변수)와 해상도(224px, 448px, 896px)를 지원한다.

팔리젬마2 이전 버전인 ‘팔리젬마’ 사용자들은 손쉽게 팔리젬마2로 업그레이드할 수 있다. 특별한 코드 수정 없이 다양한 작업에서 즉각적인 성능 향상을 제공한다는 설명이다. 또, 특정 작업 및 데이터셋에 맞게 기능을 파인튜닝할 수 있어, 이용자의 요구 사항을 충족할 수 있다는 것이다.

한편, 구글은 젬마 시리즈를 통한 대규모 오픈소스 AI 생태계 ‘젬마버스(Gemmaverse)’ 확장에 대해서도 언급했다. 구글은 지난 5월 공개된 팔리젬마를 시작으로 콜팔리(ColPali)의 시각적 문서 검색, 로보플로우(RoboFlow)의 미세 조정 기술, 실시간 객체 추적 발전 등 기술이 추가되고 있다.