[ⓒ구글 개발자 블로그]
[디지털데일리 오병훈기자] 구글이 오픈소스 대형언어모델(LLM) ‘젬마’를 기반으로 한 새로운 비전 인공지능(AI) 모델 ‘팔리젬마2’를 공개했다. 해당 모델은 이미지를 읽고 맥락을 해석, 관련 설명 및 요약 등에 특화됐다.
5일(현지시간) 구글은 개발자 블로그 ‘구글 폴 디로퍼’를 통해 팔리젬마2를 처음 소개했다. 팔리젬마2는 앞서 공개된 ‘젬마2’ 모델을 기반으로 구축됐다. 오픈소스 AI 모델로써 더 쉽고 편리한 미세조정(파인튜닝) 과정도 제공한다.
대표적인 특징은 단순한 이미지 식별을 넘어 이미지 내에 내포된 감정, 맥락을 읽어 내 이와 관련한 캡션을 실시간으로 생성할 수도 있다는 점이다. 이 같은 팔리젬마2 성능은 ▲화학 공식 인식 ▲악보 인식 ▲공간 추론 ▲흉부 X선 보고서 생성 등에서 높은 활용성을 보여줄 수 있다는 것이 구글 측 설명이다. 또, 팔리젬마2는 사용자 작업 환경에 맞춘 성능을 제공하기 위해 다양한 크기(3B, 10B, 28B 매개변수)와 해상도(224px, 448px, 896px)를 지원한다.
팔리젬마2 이전 버전인 ‘팔리젬마’ 사용자들은 손쉽게 팔리젬마2로 업그레이드할 수 있다. 특별한 코드 수정 없이 다양한 작업에서 즉각적인 성능 향상을 제공한다는 설명이다. 또, 특정 작업 및 데이터셋에 맞게 기능을 파인튜닝할 수 있어, 이용자의 요구 사항을 충족할 수 있다는 것이다.
한편, 구글은 젬마 시리즈를 통한 대규모 오픈소스 AI 생태계 ‘젬마버스(Gemmaverse)’ 확장에 대해서도 언급했다. 구글은 지난 5월 공개된 팔리젬마를 시작으로 콜팔리(ColPali)의 시각적 문서 검색, 로보플로우(RoboFlow)의 미세 조정 기술, 실시간 객체 추적 발전 등 기술이 추가되고 있다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
알뜰폰 증가률 1%대 회복…1만원 5G 요금제 효과 가시화?
2025-05-16 17:40:35[현장] 서울 성수서 셀럽 사로잡은 ‘칼 라거펠트’ 철학…“한국 사랑 돋보이네”
2025-05-16 14:59:11SKT, 이번 주말 약 90만개 유심 확보한다…“QR 유심재설정 준비 중”
2025-05-16 11:09:11“엄마아빠, 저예요” LGU+, AI로 순직소방관 목소리 복원
2025-05-16 09:25:30미디어산업 진흥 ‘마지막 기회’…“‘청와대 미디어수석’ 신설해야”
2025-05-15 17:43:18이해진 네이버, 첫 해외 일정으로 실리콘밸리行…글로벌 AI 투자 본격 시동
2025-05-16 18:43:15"경찰도 전기자전거 구독"…스왑, 서울경찰청 시범 공급
2025-05-16 18:42:14NOL 인터파크투어, 항공권 취소·환불 수수료 무료 프로모션 진행
2025-05-16 17:32:09[DD퇴근길] "구글에 지도 반출하면 생태계 무너질 것"…스타트업, 한 목소리
2025-05-16 17:22:59아디다스 고객 정보 유출…"2024년 이전 고객센터 문의자 대상"
2025-05-16 17:22:14네이버, 디지털상공인 연합 기획전 진행…"소성공인과 동반 성장"
2025-05-16 16:55:54