[디지털데일리 백지영기자] 네이버가 지난해 10월 인공지능(AI) 연구를 위해 구축한 700페타플롭스급(PF) 슈퍼컴퓨터의 세부사항을 공개했다.
140개의 컴퓨팅 노드(서버)를 갖춘 이 슈퍼컴퓨터에 장착된 그래픽처리장치(GPU)는 무려 1120개에 이르며, 컴퓨팅 노드 간 통신을 위해선 3800개 이상 케이블이 사용됐다. 또, 이 슈퍼컴퓨터를 운용하는데 필요한 전력은 일반 서버 3000대가 사용하는 전력과 맞먹는 수준이다.
황인용 네이버 클라우드 리더는 25일 온라인으로 개최된 ‘네이버 AI 나우(NAVER AI NOW)’ 컨퍼런스에서 “지난해 구축된 슈퍼컴퓨팅 인프라의 성능은 국내 최고 성능의 700PF급으로 AI 연구용으로는 국내 유일의 슈퍼컴퓨터”라며 “이는 전세계 슈퍼컴퓨터의 성능 순위를 나열하는 톱500 리스트에서도 상위권의 성능 수준을 갖고 있다”고 강조했다.
현재 네이버는 가장 진화한 것으로 평가받는 오픈AI의 GPT-3를 능가하는 한국어 초거대 언어모델 ‘하이퍼클로바’를 구축하고 있다. 이같은 대규모 AI 언어모델을 단일 GPU로 학습시키기 위해선 슈퍼컴퓨터와 같은 초대형 인프라가 필수다.
황 리더는 “지난해 GPT-3와 같은 초대규모 AI 모델의 출연으로 일반 성능의 GPU 서버로는 문제 해결이 거의 불가능해졌다. 대규모 AI 모델을 단일 GPU 서버로 학습시키려면 수십 수백 년이 걸릴 수도 있다”며 “수백 수천 개의 GPU를 통해 병렬로 학습을 할 경우, 시간을 현실적으로 크게 단축할 수 있으며, 이와 같은 문제 해결에 슈퍼컴퓨터는 필연적인 핵심 컴퓨팅 자원”이라고 설명했다.
이에 따라 네이버는 작년 슈퍼컴퓨팅 인프라 환경을 구축했고, 현재 한국어와 일본어의 초거대 언어 모델을 만들고 있다. 또, 140개의 컴퓨팅 노드와 1120개의 GPU, 초저지연 고성능 네트워킹의 필수적인 인피니밴드를 통해 컴퓨팅 노드 간 통신을 하고 노드를 서로 연결하는 데 3800개 이상의 케이블을 사용했다.
이와 함께 학습된 대규모 모델 데이터를 빠르게 읽고 쓰기 위한 올 플래시 기반의 스토리지도 함께 구축했다. 해당 슈퍼컴퓨터를 운용하는데 필요한 전력은 무려 일반 서버 3000대가 사용하는 전력과 비슷하다.
그는 “특히 인피니밴드 기술은 많은 슈퍼컴퓨터들이 사용하는 네트워크 기술로 분산 컴퓨팅 환경에서 OS를 통하지 않고 네트워크를 통해 노드 간 메모리를 직접 읽고 쓸 수 있게 해 오버헤드 없이 초저지연 고대역폭을 극대화할 수 있게 한다”고 말했다.
또한, 고성능 병렬 아키텍처 기반의 스토리지를 통해 고대역 폭의 대규모 서버에서 동시 데이터 액세스가 가능케 해 대규모 워크로드 처리가 가능하다. 데이터를 GPU 메모리로 직접 전송(GDS)함으로써 일반 네트워크 스토리지보다 2배 이상 성능을 갖췄다.
그에 따르면, 이는 전 세계 슈퍼컴퓨터의 성능 순위를 나열하는 톱500 리스트에서도 상위권의 성능 수준을 갖고 있다. 실제 네이버가 구체적으로 명시하지는 않았으나 관련 업계에선 해당 슈퍼컴퓨터가 엔비디아 DGX A100 기반의 셀린 아키텍처로 구축됐을 것으로 추정되며, 상위 20위권에 준하는 수준일 것으로 평가하고 있다.
셀린은 수주 내 구축이 가능한 대규모 GPU 클러스터용 아키텍처다. 이는 DGX A100 서버와 멜라녹스 인피니밴드 네트워킹 기술, AMD 에픽 프로세서 등이 결합된 DGX 슈퍼포드로 구성됐다.
DGX A100 140대는 INT8 이론 성능으로 약 700PF에 해당한다. 황 리더의 이번 발표에서처럼 이번 슈퍼컴퓨터를 구성하는 컴퓨팅 노드가 140대이고 성능이 700PF라면 셀린 아키텍처일 확률이 높다.
지난해 6월 발표된 전세계 톱500 슈퍼컴퓨터 순위에서 7위에 오른 엔비디아 ‘셀린’의 경우, 이 2배인 280대의 DGX A100으로 구성됐는데 실측성능이 27.6PF이었다. 이에 따라 네이버 슈퍼컴퓨터 실측 성능은 지난해 기준 그 절반인 약 14PF로 20위권 내 진입이 충분해 보인다.
한편 황 리더는 슈퍼컴퓨팅 인프라 기술 요소와 함께 인프라 운영 노하우의 중요성도 강조했다. 수년 간 쌓아온 네이버의 클라우드 인프라 운영 역량을 통해 슈퍼컴퓨팅 클러스터도 내부 인프라 운영 표준 환경과 연계될 수 있도록 최적화했다고 전했다.
그는 “자체 데이터센터 구축 노하우로 랙 설비와 네트워크 구성, 관리 시스템 연동 등 전체적인 인프라 구축 일정을 단축시킬 수 있었다”며 “최소한의 서비스 중단과 연속성 보장을 위해모니터링을 비롯한 자체 관리 플랫폼과 운영 자동화 솔루션으로 슈퍼컴퓨팅 인프라를 효과적으로 관리해 나가고 있다”고 말했다.
그는 이어 “하이퍼클로바와 같은 빅모델은 학습 시에 대규모 컴퓨팅 자원이 필요함과 동시에 추론시에도 많은 연산을 필요로 한다”며 “이에 대응하기 위해 슈퍼컴퓨팅 클러스터 확장을 고려하고 있으며 이를 위해 다양한 GPU 클러스터 OEM 서버와 AI 워크로드에 최적화된 NPU, IPU, FPGA 등 여러 AI 가속 솔루션들을 모색하고 검토하고 있다”고 덧붙였다.