[디지털데일리 이종현기자] 인공지능(AI) 스타트업 투디지트가 자사가 개발한 대규모언어모델(LLM) ‘녹스-솔라’에 대한 소스코드 및 데이터셋 일체를 오픈소스로 공개했다. 한국어 LLM 리더보드인 ‘Ko-LLM 리더보드’서 1위를 차지한 모델로, 국산 AI의 수준이 한 단계 높아질 것으로 보인다.
투디지트가 공개한 것은 AI 스타트업 업스테이지의 ‘솔라(Solar)’를 기반으로 한다. 솔라는 메타의 LLM인 ‘라마2(Llama2)’를 파운데이션 모델(FM)로 삼아 한국어에 특화되도록 개량한 것이다. 라마2에서 솔라로, 솔라에서 녹스-솔라로 이어졌다.
녹스-솔라는 한국지능정보사회진흥원(NIA)과 업스테이지가 공동으로 운영하는 Ko-LLM 리더보드서 성능을 입증했다. 녹스-솔라의 Ko-LLM 리더보드 평균점수는 67.7점이다. 1주일 전 60.5점으로 1위를 기록한 뒤 1주일새 7.2점이나 점수를 높였다.
엔비디아 그래픽처리장치(GPU)인 ‘A100’이 8개 탑재된 엔비디아 서버 1대로 만들어낸 결과물이라는 점도 주목할 만하다. 많은 컴퓨팅 파워를 동원한다면 더 나은 결과물을 만들 수 있는 특성 탓에 업계 일각에서는 리더보드의 점수를 ‘숫자놀음’이라고 비판한다. 기술이 아니라 자본을 앞세워 높은 순위를 차지하는 것에 대한 비판인데, 투디지트는 1대의 서버만 이용했다.
한 업계 관계자는 “업계에서는 Ko-LLM 리더보드를 기술 수준을 가르는 척도로 보지는 않는다. 진지하게 참여하기 보다는 마케팅 용도로 활용하는 곳들이 대부분”이라면서도 “그렇다 보니 투디지트의 결과물과 선택이 더 신선하게 느껴진다. 1~2점이 아니라 단번에 7점이나 높이는 것은 차별화된 노하우가 없다면 불가능한 일”이라며 녹스-솔라의 성과를 추켜세웠다.
투디지트 박석준 대표는 Ko-LLM 리더보드 참여에 대해 “기술력을 입증하기 위해 2022년 글로벌 AI 대회에 참여해 우수한 성적을 거둔 바 있다. 그런데 최근에는 리더보드에서 성과를 보인 적 없지 않냐, 하는 말을 많이 들어서 구성원을 설득해 한달여간의 준비 끝에 결과물을 선보이게 됐다”고 설명했다.
특히 눈길을 끄는 것은 투디지트가 단순 1위기 그치지 않고 모델의 소스코드와 학습 데이터셋을 모두 공개했다는 점이다. Ko-LLM 리더보드는 모델의 공개를 의무화하지만 소스코드와 데이터셋까지 공개할지는 자율에 맡기고 있다.
이와 관련 그는 바둑기사인 조훈현 9단이 전성기를 지내던 시절 자신의 노하우를 모두 담은 책을 낸 것에 비유했다. 책을 낼 당시 주위에서 노하우를 모두 공개하면 금방 따라잡히는 것 아니냐는 우려를 제기한 데 대해 조 9단이 ‘바둑의 발전을 위해 노하우를 공개했다면서 책을 보더라도 나를 넘기 위해서는 많은 노력을 해야 할 것’이라고 말한 것을 인용하며 “같은 생각”이라고 전했다.
박 대표는 “데이터를 공개하자는 것에 구성원들이 거부감을 나타냈다”며 “우리가 데이터를 공개하면 국내 스타트업 생태계가 한단계 발전할 수 있을 거라고, 또 공개한다고 해도 우리를 넘으려면 더 많은 노력을 해야 한다고 설득했더니 이해해 주더라”고 말했다.
투디지트가 녹스-솔라는 20일 기준 Ko-LLM 리더보드서 2위로 밀려났다. 현재 1위를 차지한 것은 AI 스타트업 T3Q가 녹스-솔라를 파인튜닝한 모델이다. 투디지트로 비롯한 선순환구조가 일찌감치 현실화하는 모습이다.
그러면서도 녹스-솔라가 투디지트가 가진 기술·노하우의 모든 것은 아니라고 선을 그었다. 파운데이션 모델을 기반으로 더 나은 결과물로 만드는 파인튜닝이 투디지트의 진면목인 만큼, 라마 등 여타 모델로 더 우수한 결과물을 만들어 낼 수도 있다고 자신했다.
그는 “한글을 배운다고 해서 문학을 잘 이해한다든지, 글을 잘 쓴다든지 하는 것은 아니지 않나. 특정 분야에 숙달되기 위한 학습, 훈련이 필요하다. AI 역시도 마찬가지”라며 “한글을 만드는 세종대왕이 될 수는 없으니, 구글이나 메타와 같은 기업들이 파운데이션 모델을 공개하면 이걸 잘 활용할 수 있도록 파인튜닝하는 것에 방점을 찍었다”고 강조했다.
한편 투디지트는 2022년 스탠포드대학에서 주최하는 기계독해 대회 ‘스쿼드2.0’에서 7위라는 괄목할 만한 성과를 보였다. 해당 순위는 국내 참여 기업·기관 중 1위로, 구글과 메타, 마이크로소프트(MS) 등을 제친 결과다. 딥마인드와 뉴욕대, 워싱턴대가 공동 주최하는 자연어 평가 대회 ‘글루’에서도 글로벌 14위를 기록했다. 4월부터는 글로벌 LLM 리더보드인 허깅페이스에 등재할 LLM 준비에 착수한다는 계획이다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
유심칩 초기물량 100만 소진…유영상 대표 “5~6월 각각 500만 추가공급”
2025-04-30 11:29:48내 차는 안전할까?…“SKT 해킹사고로 IoT에서 2차피해 우려”
2025-04-30 11:25:12유영상 SKT 대표 “해지 위약금 면제, 종합 검토하겠다”
2025-04-30 11:23:25“황금연휴에도 매일 택배 도착”…CJ온스타일, 배송 확장 본격화
2025-04-30 10:38:19SKT, 유심 긴급 발주 “年공급이 300만인데…2000만을 어떻게”
2025-04-30 10:35:30유상임 장관, SKT 해킹사고 현장 점검…"2중, 3중 피해 예방조치 필요"
2025-04-30 09:52:39'에브리씽 위 두 이즈 뮤직' 공모 시작…콘진원, 무대 제작 지원
2025-04-30 14:22:22민주당 게임특위, 7일 ‘게임 산업 진흥 위한 업계 간담회’ 개최
2025-04-30 14:21:52SM엔터, 서울시와 ‘광야숲’ 3기 조성…환경 경영 결실 맺는다
2025-04-30 13:29:08[네카오는 지금] “대선 레이스 본격 준비”…포털, 특집페이지 연다
2025-04-30 11:30:10웹툰 IP 드라마 'ONE: 하이스쿨 히어로즈', OTT '웨이브'로 간다
2025-04-30 11:29:28카카오게임즈, 세브란스 재활병원 아동환자에 '게임 체험 캠프'
2025-04-30 11:15:46