[테크다이브] AI 추론도 엔비디아 판…기회는 sLM·CXL

실시간
뉴스

반도체

[테크다이브] AI 추론도 엔비디아 판…기회는 sLM·CXL

디지털데일리 발행일 2024-07-20 08:20:00

고성현 기자

URL복사

최태원 대한상의 회장이 19일 '대한상의 제주포럼' AI경영 토크쇼에서 발언하고 있다 [ⓒ대한상공회의소]

[디지털데일리 고성현 기자] 19일, 최태원 대한상공회의소 회장(SK그룹 회장)이 인공지능(AI) 시장 내 엔비디아를 향한 발언이 화제가 되고 있습니다. 최 회장은 "아주 짧은 미래 2~3년 안에 엔비디아가 부서지지 않을 것이라 생각한다. 솔직히 거의 적수가 없다고 말할 수 있다"고 전했죠.

현재 생성형 AI 시장은 크게 2가지 분류로 나뉩니다. AI 모델의 데이터를 구축하는 학습(Training) 영역, 이를 토대로 새로운 출력값을 만들어내는 추론(Inference) 영역이 대표적이죠. 한때 업계에서는 비교적 GPGPU의 범용성이 필요하지 않고, 저전력이 핵심인 추론 분야에서 엔비디아의 영향력이 감소할 것으로 내다봤습니다. 실제로 데이터센터를 구축하는 구글·마이크로소프트·아마존웹서비스 등 하이퍼스케일은 자체 칩을 개발하거나 AI칩 기업에 투자·협력을 진행하는 등, 추론 분야에서 엔비디아 인프라를 벗어나기 위한 시도를 이어나가기도 했죠.

그럼에도 엔비디아의 위상은 여전히 독점적이라는 평가가 잇따르고 있습니다. AI 모델을 만들기 위한 학습용 서버는 물론, 추론용 서버에서도 마찬가지입니다. 이는 지난해 엔비디아의 매출 비중으로도 쉽게 확인할 수 있습니다. 엔비디아가 지난해 달성한 470억달러 규모 데이터센터 사업 매출 중 40% 이상이 학습이 아닌 추론 작업을 수행하는 시스템 배치에서 발생했습니다. 반도체 사업 특성상 선제 진입한 업체가 점유율을 높이는 데 유리하고, 현재 NPU 칩 시장이 초기 단계임을 고려하면 당분간 엔비디아의 경쟁 우위가 지속될 수 밖에 없습니다.

이처럼 엔비디아가 AI 반도체 시장에서 독점적 지위를 유지할 수 있는 이유는 무엇일까요? 엔비디아의 강점으로 가장 먼저 거론되는 건 역시 개발 플랫폼 쿠다(CUDA)를 위시한 AI 인프라겠죠. 십여년 이상 관련 플랫폼에 대한 데이터, 이력을 쌓아오다 보니 이를 벗어나기 어렵다는 게 업계의 의견입니다. 엔비디아 GPGPU의 범용적 성능도 높은 평가를 받는 이유 중 하나입니다.

핵심 플랫폼인 쿠다(CUDA)보다도 엔비디아의 위상을 드높여준 요소가 더 있습니다. AI 모델 구동을 위한 칩 인터커넥트 환경이 그 주인공입니다. 하드웨어로는 엔브이링크(NVLink), 소프트웨어로는 엔브이스위치(NVSwtich)가 LLM을 중심으로 한 데이터센터 시장 전체를 좌지우지하고 있습니다.

엔비디아의 LLM 기반 추론 시스템 모식도. LLM 매개변수를 각 GPGPU가 할당받아 처리하며, NV스위치를 통해 고속 통신해 결과값을 내놓는 구조를 띤다 [ⓒ이음]

위 그림은 엔비디아의 AI 솔루션이 적용된 데이터센터의 서버 모식도입니다. 최상단에 전반적인 컴퓨팅·시스템을 운영하는 CPU가 배치돼 있고, 그 아래로 AI 모델을 구동하기 위한 장치들이 연결돼 있죠. CPU와 GPU가 통신하는 길은 기존에 활용되는 PCI익스프레스(PCIe) 스위치가 담당을 하고 있고, 그 아래로 GPGPU가 NV링크를 통해 NV스위치로 연결돼 있는 형태입니다.

이 서버가 질문(입력값)에 대한 새로운 해답(추론)을 내놓는 과정은 대략 이렇습니다. 토큰화된 단어들이 병렬 처리 방식으로 벡터 영역에 접근하고, 이를 응답하는 단계에서는 GPU가 구축된 LLM에 있는 매개변수(Parameter)를 모두 읽고 새로운 값을 도출하죠.

이때 LLM은 일정 용량으로 분할돼 GPU에 탑재된 고대역폭메모리(HBM)에 할당됩니다. LLM 용량이 대략 400GB 수준이고, 이 모델을 읽기 위해 엔비디아의 H100을 사용한다고 가정해봅시다. H100의 HBM3 용량은 80GB정도이기에 이를 처리하려면 여러개로 나눠 읽어들일 필요가 있겠죠. LLM 용량이 400GB를 넘는다면 더 많은 개수의 GPU가 탑재되거나, 그보다 용량을 높인 최신세대 GPU를 꽂아야할 겁니다.

또 GPU가 LLM을 쪼개어 할당 받아 연산을 진행한다면 여러 GPU가 서로 연결돼 있어야만 정확한 연산이 가능하겠죠. 또 이 연결 속도가 빠르면 빠를수록 새로운 출력값을 내놓는 속도 역시 높아집니다.

이 모든 과정을 쉽게 다시 한번 풀어볼까요. 질문자가 챗GPT와 같은 서비스에 질문을 입력하면, AI 서버에서는 질문에 맞는 답을 찾기 위해 저장된 LLM을 모두 훑어봐야 합니다. 이후 여러 작업자(GPU)가 각각의 작업대(HBM)에서 자기가 맡은 분야를 처리하고 서로 소통을 거쳐 답을 내놓겠죠. 이때 서로 소통하려면 작업자끼리 소통할 수 있는 창구가 필요합니다. 이 창구에 접근하고 소통하는 속도가 높으면 높을수록 더욱 빠르게 답을 찾을 수 있을 겁니다. 바로 이 창구 역할을 하는 것이 NV링크, NV스위치입니다.

엔비디아 H100 기반 인터커넥트 솔루션 비교. 왼쪽이 PCIe 스위치 기반, 오른쪽이 NV스위치 기반 GPU-GPU 인터커넥트 양상 [ⓒ엔비디아]

업계는 현재 AI칩 간 인터커넥트를 지원하는 하드웨어 중 NV링크의 성능을 따라잡을 수 있는 제품이 없다고 보고 있습니다. 엔비디아를 제외한 AI칩 인터커넥트 표준도 없는 상황인 데다, 이를 만들더라도 이미 수 세대를 거쳐 발전한 NV링크를 따라잡기는 어렵다는 게 중론입니다. 즉, 엔비디아는 학습 분야에만 영향력이 높은 것이 아니라 추론을 포함한 LLM 시장 자체에서 영향력을 떨치고 있는 상황인 거죠. 이는 AI칩 시장에 도전하는 기업들이 엔비디아 아성을 넘기 힘든 핵심적인 이유입니다.

물론 AI칩 회사들이 엔비디아를 무조건적으로 넘을 수 없다는 말은 아닙니다. 어쨌든 엔비디아가 구축하는 AI인프라가 막대한 비용, 전력을 쓰고 있다는 점이 문제로 떠올랐기 때문이죠. 고성능 AI 데이터센터를 구축해 압도적인 서비스를 거두더라도 이를 구축하고 유지하는 비용이 막대하면 수익성이 낮아질 수밖에 없습니다. 아직 확실한 AI 앱이 나오지 않은 상황에서 엔비디아 인프라만 활용하기에는 상당히 불안하겠죠. 그렇기 때문에 수익성을 확보할 수 있는 다른 효율적인 방안도 필요하며, 이를 잘 활용하면 반(反)엔비디아 진영의 기회도 커질 수 있습니다.

최근 대표적으로 떠오르고 있는 대안이 바로 소형언어모델(sLM)입니다. 도메인특화모델(DSM)이라고도 불리죠. LLM처럼 모든 데이터를 취합해 서비스를 제공하는 것이 아닌, 특정 영역에만 한정된 데이터를 학습해 서비스할 수 있도록 설계된 AI 모델을 의미합니다. LLM을 모바일 메모리 용량에 맞게 컨버전한 온디바이스AI와는 별도의 개념입니다.

현재 업계에서 개발 중인 sLM의 용량은 대략 50~80GB로 추정되고 있습니다. 메모리 용량 관점으로만 봤을 때, 하나의 GPU가 하나의 sLM을 모두 읽어올 수 있으니 굳이 여러 개 GPU를 사용할 필요도 없겠죠. GPU간 연결을 지원하는 인터커넥트 시스템도 필요하지 않습니다. NV링크·NV스위치가 필요없다면 자연스레 전성비가 높고 메모리 용량·성능이 좋으며 값싼 칩을 택할 수 있게 될 겁니다.

당연히 하나의 sLM만을 구동하기 위해 데이터센터를 구축하려는 하이퍼스케일은 많지 않겠죠. 여러개의 sLM을 SSD 등에 저장해두고 필요한 곳에 필요한 모델을 구동하는 형태를 구축하려고 할 겁니다. 이렇게 하려면 sLM을 저장하는 SSD, 이를 연산처리하는 AI칩, 시스템을 총괄하는 CPU가 유기적으로 이동할 수 있어야겠죠. 이러한 장치 간 데이터 통신을 제약없이 원활하게 수행하는 기술 표준이 바로 컴퓨트익스프레스링크(CXL)입니다.

CXL를 기반으로 한 sLM 데이터센터의 모식도는 위 그림과 같습니다. CXL 스위치를 중심으로 CPU·GPGPU/NPU·SSD 등이 연결돼 있는 형태죠. CXL은 그림에서 보듯 메모리 확장장치와 같은 'Type3'나 프로세서를 여러개 묶은 Type1, 프로세서+메모리 조합의 Type2 등으로 구성할 수도 있습니다. 높은 유연성을 바탕으로 데이터센터 랙(Rack) 구축 자유도를 높일 수 있고 그만큼 구축 비용도 절감할 수 있겠죠. 이러한 CXL 기반 sLM 구조가 확립되게 된다면 HBM보다 CXL 메모리를, 엔비디아의 칩보다 AI칩을 택하는 기업도 늘어날 겁니다.

최태원 회장은 19일, AI 모델 변화의 다양한 시나리오를 거론하며 "우리나라는 4가지(LLM 성공·실패·sLM 등장 등) 시나리오에 다 살아남는 것을 진행해야 하고, 그게 우리의 숙제"라고 말했습니다. LLM이 살아남을지, sLM이 확실한 대안이 될지는 누구도 알 수 없으니 모든 차원에서 여러 대안을 준비를 해야 한다는 의미로 읽힙니다. 우리 기업이 온디바이스 AI, 서버 등 여러 영역에서 AI반도체 주도권을 잡기 위한 도전에 나선 만큼, 시장 주도권을 잡을 수 있는 다양한 아이디어가 실현되기를 기대해보겠습니다.