LLM 비즈니스도 `풀스택`을 준비해야 할 때 [스토리팩-업스테이지⑥]

실시간
뉴스

일반

LLM 비즈니스도 '풀스택'을 준비해야 할 때 [스토리팩-업스테이지⑥]

디지털데일리 발행일 2024-05-16 09:46:52

이건한 기자

URL복사

사람의 뇌는 단순한 정보보다 '이야기'를 더 좋아하고 오래 기억한다고 합니다. 디지털데일리 테크콘텐츠랩의 '스토리팩'은 혁신기업들의 주요 기술·인재·조직 키워드를 책 읽는 듯한 재미와 인사이트로 전달하는 기업별 연재 기획물입니다. <편집자주>

[디지털데일리 이건한 기자] 지난 4월 1000억원 규모의 시리즈 B 투자 유치로 AI 업계의 이목을 끈 업스테이지는 최근 미국 공략에 열심입니다. 국내에선 이미 실력 검증을 마친 셈이기에 다음으로 AI 산업의 중심지를 공략하는 이 전략은 그리 이상해 보이지 않습니다. 하지만 오픈AI나 구글, 메타 등 'AI 공룡'들이 우글거리는 오늘날 미국에서 웬만한 스타트업은 명함조차 내밀기 어려울 텐데요. 업스테이지는 왠지 자신감이 넘쳐 보입니다. '풀스택 거대언어모델 생태계(Full-stack LLM Ecosystem)'를 전면에 내세우며 말이죠.

소프트웨어 분야에서 풀스택은 '팔방미인'이나 '올라운더' 같은 의미로 쓰입니다. 풀스택 LLM 역량은 곧 LLM 생태계 구성에 필요한 A to Z의 기술을 모두 갖췄다는 의미고요. 현시점 AI 산업에서 풀스택 LLM 역량 보유를 자신할 수 있는 기업은 앞서 언급한 빅테크들을 비롯해 아직 극소수에 불과하기에 주목할 만한 대목이죠.

또한 그 희소성에 상응하는 비즈니스 경쟁력도 상당한 것으로 평가됩니다. 해당 근거는 LLM의 기본 구조와 ▲데이터 전처리(Dataverse) ▲깊이확장 스케일링(DUS) ▲단계별 최적화(sDPO) ▲모델평가(Evalverse)로 이어지는 업스테이지 핵심 플랫폼들의 연결 구조 안에 담겨 있는데요. 업스테이지의 박찬준, 김다현 연구원에게 보다 구체적인 설명을 들어볼 수 있었습니다.

(왼쪽부터) 본 기사 제작에 도움을 준 업스테이지 박찬준, 김다현 연구원 (ⓒ 업스테이지)

LLM 개발 과정

두 연구원에 따르면 인간 언어의 이해 및 구사에 특화된 LLM은 모두 ▲사전학습(Pre-training) ▲미세조정(Supervised Fine-tuning) ▲정렬(Alignment)이란 3단계 과정을 거쳐 만들어집니다.

사전학습은 범용적인 특성의 기본 LLM을 만드는 단계입니다. AI가 자연스러운 문장을 생성하고 사용자의 질의를 이해하도록 언어의 특징을 학습시키는 과정이 포함됩니다. 미세조정은 사전학습을 마친 모델이 질문에 어떤 형태로 답변해야 하는지 가르치는 과정입니다. 이 과정에서 필요에 따라 특정 데이터를 추가 학습시키거나 최적화를 통한 성능 조절이 가능합니다. 정렬은 일종의 도덕관을 심는 단계입니다. LLM이 폭력적이거나 불법적인 요청을 걸러내고 인간적인 답변을 하도록 기준을 가르치는 과정이 포함됩니다.

이 3단계는 모두 완성도 높은 LLM을 구현하는 과정에서 소홀히 할 수 없는 것들이죠. 그런데 현재 LLM 비즈니스 기업 중 상당수는 메타의 '라마(Llama)'처럼 공개된 사전학습 모델을 이용한 미세조정 단계에서만 경쟁하고 있습니다.

여기엔 다양한 이유가 따르는데요. 우선 사전학습 및 정렬 단계에 적용 가능한 기술 노하우까지 폭넓게 확보한 기업이 아직 적은 까닭입니다. 이 가운데 미세조정은 사전학습 모델의 재가공 작업만으로 빠른 결과물을 도출할 수 있다는 점에서 초기 AI 연구단계에 있는 기업들이 선호하는 방식이죠. 또다른 이유는 사전학습 모델을 자체 제작하거나 개조할 때 필요한 큰 비용입니다. LLM 개발 중 몇십억~몇천억개에 이르는 매개변수와 학습 데이터를 처리하는 과정은 막대한 컴퓨팅 리소스를 요구하는데요. 그 운영 비용은 천문학적인 수준으로 알려져 있죠.

그러나 미세조정만으론 효과적인 성능 개선을 기대하기 어렵습니다. 김다현 연구원에 따르면 LLM 모델 성능을 높일 때 중요한 조건은 크게 ▲모델의 크기를 키울 것 ▲학습 데이터의 규모를 키울 것 ▲충분한 학습시간을 가질 것인데요. 이 중에서도 어느 한쪽에 치우치지 않고 균형감 있는 확장이 이뤄질 때 가장 큰 개선 효과가 나타나기 때문이라고 합니다.

DUS

깊이확장 스케일링(Depth-Up Scaling, DUS)은 자체 모델 개발이 어려운 기업들의 문제를 해결하기 위해 업스테이지가 찾아낸 대안입니다. 오픈소스로 공개된 사전학습 모델을 쉽고 효과적으로 합쳐 모델 크기를 키울 수 있는 획기적인 기법이죠.

예컨대 매개변수가 10B(100억)인 모델 2개를 합치면 성능이 2배인 20B 모델이 만들어질까요? 그리 단순하지 않습니다. 사람에 비유하면 동일한 지능과 특성을 지닌 두 사람이 같은 방법으로 한 문제를 푼다고 획기적이거나 빠르게 답을 내긴 어려울 것처럼 말입니다.

그러나 각자의 역할을 효율적으로 분배하고 선택과 집중을 통한 시너지 창출을 유도한다면? 분명히 더 빠르게 좋은 답을 찾아낼 수 있게 됩니다. 업스테이지는 비슷한 원리로 공개형 LLM '미스트랄 7B' 모델 2개를 접목한 10.7B LLM '솔라(SOLAR)'를 만들어냈습니다. 현재 업스테이지의 국내외 LLM 비즈니스 전면에서 활약 중인 모델이죠.

미스트랄 7B 모델은 구조상 32개의 레이어(Layer, 문제해결 단계를 구분하는 층)로 구성됩니다. 이를 단순히 합치면 14B-64레이어 모델이 될 텐데요. 그 상태만으론 앞선 비유와 같은 문제로 그리 좋은 성능을 기대할 수 없습니다.

이에 업스테이지는 우선 자체 노하우로 두 모델 간 연결 시 레이어 호환성이 가장 좋은 24개 층을 찾아낸 뒤 이를 합쳐 48개 레이어로 확장했습니다. 이어 추가 최적화 작업인 연속 사전학습(Continued Pre-training)으로 단순 14B 모델보다 성능이 좋은 10.7B 모델을 만들어 내는 데 성공했죠.

이 같은 방식의 DUS가 업계의 호평을 받는 이유는 챗GPT-4에 적용된 유사 기술(MoE, Mixture of Experts)과 비교해도 훨씬 단순한 형태이기 때문입니다. 비슷한 목적의 두 기술 중 MoE는 기술 적용 난이도가 높아 널리 쓰이지 못하고 있지만 DUS는 논문 공개 직후 중국의 AI 유니콘 기업 01.AI이 DUS 적용 모델 'Yi'를 공개하는 등 빠른 검증 사례가 나타나고 있죠. 업스테이지에 따르면 DUS 논문은 오는 6월 세계 최고권위 NLP(자연어처리) 학회인 'NAACL 2024'에서도 발표가 확정되어 있다고 합니다.

sDPO

AI의 가치관을 인간 사회의 기준과 일치시키는 '정렬' 노하우도 대단히 중요합니다. 이 과정이 미흡할 경우 AI가 반사회적인 사고를 칠 확률이 그만큼 높아지기 때문입니다. 가령 테러리스트에게 폭탄 제조법을 거리낌 없이 알려주는 AI가 있다면 정말 위험하겠죠?

업스테이지는 이 단계에선 단계적 최적화(Stepwise-Direct Preference Optimization, sDPO)란 독자기법을 고안했습니다. 보통의 정렬이 AI에게 허용된 것과 허용되지 않은 것을 망라해 한번에 주입하는 방식이라면 sDPO는 일종의 '커리큘럼 최적화'에 해당하죠.

예를 들어 아이에게 초등학교 1학년부터 고등학교 3학년까지 배울 내용을 한번에 가르친다고 가정해봅시다. 이 방법은 그 어떤 영재라도 명확히 이해하지 못하고 넘어가는 부분이 생기겠죠. 공개형 AI 서비스에서 발견되는 사고들도 바로 이런 지점에서 발생합니다. 이를 막으려면 AI도 쉬운 개념부터 어려운 개념까지 단계별로 100% 학습을 마치는 접근 방식을 택해야 하는데요. sDPO는 이를 AI 학습에 최적화한 노하우의 집약체이며 업스테이지 솔라에도 적용돼 모델 안전성 향상에 기여하고 있습니다.

Dataverse & Evalverse

DUS와 sDPO가 LLM 개발 단계라면 데이터버스(Dataverse)와 이벨버스(Evalverse)는 풀스택 LLM 생태계의 시작과 끝을 담당하는 문고리에 해당합니다. 이 중 데이터버스는 AI용 학습 데이터를 쉽고 효율적으로 가공하도록 돕는 업스테이지의 '데이터 전처리 표준화 솔루션'입니다. 데이터 전처리는 AI가 학습할 데이터에서 중복되거나 불필요한 데이터를 사전에 걸러내는 작업인데요. 전처리 수준이 낮으면 모델 성능 저하는 물론이고 막대한 데이터 학습비용 대비 충분한 효율을 기대하기 어렵게 됩니다.

이벨버스는 완성된 LLM의 성능을 다각적으로 평가할 수 있는 업스테이지의 '노코드 LLM 종합평가 플랫폼'입니다. 허깅페이스 Open LLM 리더보드에 활용되는 'H6' 지표를 포함해 ▲대화 능력 지표 'MT-bench', ▲감성 평가 지표 'EQ-bench' ▲지시 이행 능력 지표 'IFEval' 등 LLM 평가용 주요 벤치마크를 한번에 통합 테스트할 수 있죠. 이벨버스는 AI 기업들이 그동안 각 벤치마크 플랫폼에 모델을 개별 제출하던 수고를 덜어준 점에서 획기적이란 평가를 받고 있습니다.

보이지 않는 힘 '데이터'

위 내용을 종합할 때 업스테이지는 데이터셋 구축부터 모델 성능 개선 및 평가 노하우를 두루 갖춘 '풀스택 LLM' 사업자라 할만합니다.

추가로 업스테이지가 지난해 8월 발족한 '1 Trillion(1조) 토큰 클럽', 일명 1T 클럽의 순항도 예의주시할 필요가 있습니다. 1T 클럽은 텍스트, 책, 기사, 보고서, 논문 등 다양한 분야에서 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들의 연합체입니다. 설립 당시 20여개 언론사 및 기업과 학계 등이 참여했는데요. 최근 솔라 매출 증대에 따른 파트너사 수익 공유 계획이 현실화됐다고 합니다.

합법적이고 정당한 수익 공유 생태계의 표본인 1T 클럽은 최근 '데이터 전쟁'이 심화된 글로벌 AI 시장에서도 주목할 만한 협력모델로 꼽힙니다. AI 개발사들의 학습 데이터 무단활용 문제는 지난해 말 뉴욕타임스가 챗GPT 개발사 오픈AI 고소를 시작으로 점차 심각해지고 있는데요. 지금은 주요국들이 데이터 활용 관련법 논의에 착수한만큼 안전한 데이터 확보는 향후 AI 기업의 생존에도 중요한 영향을 미칠 문제로 거론됩니다. 이는 박찬준 연구원이 1T 클럽을 두고 "업스테이지의 보이지 않는 힘"이라고 설명한 배경이기도 합니다.

한편 "새로운 AI 모델 등장이 어떤 경쟁사에게는 '절망'일지라도 우리에는 새로운 '기회'"라고 말한 김 연구원의 말도 인상 깊습니다. 이 말은 앞으로 어떤 고성능 모델이 등장해도 풀스택 LLM 역량을 갖춘 업스테이지는 경쟁사 대비 앞선 패스트 팔로잉(Fast-flowing, 빠른 추격)이 가능할 것이란 의미입니다.

이와 비슷한 예는 스마트폰 시장에서 찾아볼 수 있습니다. 2010년대 초 오랜 휴대폰 개발 노하우와 막강한 제조 인프라, 구글과의 깊은 유대를 통한 하드웨어-소프트웨어 풀스택을 갖춘 삼성전자가 선두 애플을 고속 추격한 것 말이죠. 당시에 삼성 외에도 많은 제조사가 스마트폰 경쟁에 가세했습니다만 단순 제조력에 힘을 실은 기업, 소프트웨어 최적화에만 집중한 기업은 대부분 도태되고 말았습니다.

이와 비슷하게 각종 첨단기술의 집약체인 AI 산업도 어느 하나만 잘해서는 성공을 보장하기 어려울 것으로 보이는데요. 이 가운데 흔치 않은 풀스택 LLM 역량을 갖춘 업스테이지가 과연 제2의 삼성의 사례를 만들어 낼 수 있을지 귀추가 주목되는 이유입니다.