[디지털데일리 이종현기자] 업스테이지가 대규모언어모델(LLM)을 자체적으로 테스트할 수 있는 플랫폼을 무료로 공개했다.
인공지능(AI) 스타트업 업스테이지는 자사가 개발한 노코드 LLM 종합 평가 플랫폼 ‘이벨버스’를 무료로 공개한다고 3일 밝혔다. 이벨버스는 오픈소스 형태로 깃허브에 공개돼 누구나 활용할 수 있다.
업스테이지에 따르면 통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 ‘벤치마크’ 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6개 부문을 측정하는 허깅페이스 ‘H6’ 지표를 포함해 대화 능력 지표 ‘MT-bench’, 감성 평가 지표 ‘EQ-bench’, 및 지시 이행 능력 지표 ‘IFEval’ 등이 주요 벤치마크로 꼽힌다.
업스테이지는 주요 벤치마크를 통합해, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다. 특정 벤치마크를 테스트하기 위해 해당 플랫폼에 모델을 제출할 필요 없이 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다는 설명이다.
업스테이지 이벨버스는 업무용 메신저 ‘슬랙’에 애플리케이션프로그래밍인터페이스(API) 챗봇 형태로 연동된다. 슬랙에서 이벨버스 챗봇과 1:1 대화를 통해 모든 평가 과정을 간소화한 것이 특징이다. 이용자들은 ‘호출’, ‘평가’ 등 채팅창에 단 2개의 명령어만 입력하면 바로 원하는 모델을 호출해 테스트할 수 있다. 벤치마크별 점수에 대한 종합 리포트까지 확인할 수 있어 모델 간 비교 평가도 가능하다.
업스테이지는 이번 이벨버스 오픈소스 공개는 생성형 AI 생태계의 발전과 상생을 위한 노력의 일환이다고 강조했다.
업스테이지 김성훈 대표는 “누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 되어 기쁘다”며 “앞으로 업스테이지는 글로벌 생성형 AI 시장의 선두주자로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해 나갈 것”이라고 말했다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
통신3사, MWC25서 'AI 각축전' 예고…유상임 장관 깜짝 회동할까
2025-02-23 14:57:14[OTT레이더] 인생을 건 머니게임이 시작됐다, 웨이브 ‘보물섬’
2025-02-23 12:04:50[인터뷰]“밤 9시까지 AI 열정!”...’KT에이블스쿨 전형’이 신설된 이유는?
2025-02-23 09:00:00연간 통신분쟁 전년 대비 22% 급증…”이용계약 관련 분쟁이 절반”
2025-02-21 17:39:30[DD퇴근길] 계속되는 '망 사용료 갈등'…MWC, 논의의 장으로
2025-02-21 17:28:22[IT클로즈업] ‘망 사용료 논쟁’ MWC서 재점화될까…“주요국 입장 예의주시해야”
2025-02-21 11:30:17신작 시험대, ‘스팀 넥스트 페스트’ 개막… K-게임도 출전 준비 완료
2025-02-23 12:03:00[툰설툰설] 신분차이 로맨스…재벌과의 인터뷰 vs 품격을 배반한다
2025-02-23 11:42:17SM·카카오엔터 합작 英 보이그룹 '디어앨리스' 공식 데뷔
2025-02-21 17:28:39[DD퇴근길] 계속되는 '망 사용료 갈등'…MWC, 논의의 장으로
2025-02-21 17:28:2229CM, 상반기 ‘이구홈위크’ 전년비 거래액 2배 돌파…“주방용품·홈 패브릭 상품 추천 적중”
2025-02-21 16:24:36위메이드 ‘레전드오브이미르’, 구글 플레이 인기 1위 달성
2025-02-21 16:16:01