엔비디아, `블랙웰 B200 GPU→DGX GB200 슈퍼팟`까지…’AI·추론 성능↑’ [소부장반차장]

실시간
뉴스

반도체

엔비디아, '블랙웰 B200 GPU→DGX GB200 슈퍼팟'까지…’AI·추론 성능↑’ [소부장반차장]

디지털데일리 발행일 2024-03-19 16:41:08

김문기 기자

URL복사

[디지털데일리 김문기기자] "엔비디아는 지난 30년 동안 딥 러닝, AI와 같은 혁신을 실현하기 위해 가속 컴퓨팅을 추구해 왔다. 생성형 AI는 우리 시대를 정의하는 기술이다. 블랙웰 GPU는 이 새로운 산업 혁명을 구동하는 엔진이다. 세계에서 가장 역동적인 기업들과 협력해 모든 산업에서 AI의 가능성을 실현할 것이다.”

젠슨 황 엔비디아 창립자 겸 CEO는 18일(현지시간) 미국 새너제이 SAP센터에서 개최한 연례 개발자 컨퍼런스 ‘GTC 2024’에서 키노트 연사로 나서 새로운 아키텍처 기반의 GPU와 가속기를 소개하며 이같이 말했다. 이번 행사는 엔비디아가 5년만에 연 오프라인 행사로 주목 받았다.

이번 행사의 핵심은 블랙웰 아키텍처로 설계된 차세대 GPU에 집중됐다. ‘B200’으로 명명된 새로운 GPU는 전작 대비 2배 가량 향상된 2080억개 트랜지스터로 구성됐으며, 밀접한 두개의 다이로 구성된 칩렛 구조를 갖추고 있다. 엔비디아는 이 플랫폼 자체를 ‘블랙웰 GPU’라 부르기도 했다. 두개의 GPU 칩은 10TB/s NV-HBI 연결을 통해서 마치 단일칩처럼 동작할 수 있도록 설계됐다. TSMC의 개선 버전인 4NP 공정이 도입됐다.

각 다이에는 각각 24GB HMB3e 스택 4개가 포함됐다. 1024비트 인터페이스에서 각각 1TB/s 대역폭을 제공한다. 최대 이론상 20페타플롭스의 성능을 낼 수 있다. AI 훈련 성능에서 무려 4배 가량 빠른 속도를 보여주는 셈이다.

B200→GB200→DGX GB200→DGX GB200 슈퍼팟

B200은 Arm 기반 단일 그레이스 CPU를 결합해 ‘GB200’으로도 제공된다. 이 플랫폼은 거대언어모델(LLM) 추론 성능을 전작 대비 30배 빠른 속도를 보여준다. 엔비디아에 따르면 비용과 에너지 소비를 최대 25배까지 줄여준다는 설명이다.

GB200 플랫폼을 36개 조합해 설계한 모델이 ‘DGX GB200’이다. 이 시스템은 ‘GB200’ 슈퍼칩이라 부르는데 엔비디아 NV링크를 통해 하나의 슈퍼 컴퓨터처럼 연결해 사용할 수 있다.

젠슨 황 CEO는 “엔비디아 DGX AI 슈퍼컴퓨터는 AI 산업 혁명의 공장이다. 새로운 DGX 슈퍼팟은 엔비디아 가속 컴퓨팅, 네트워킹, 소프트웨어의 최신 기술을 결합해 모든 기업과 산업, 국가가 자체 AI를 개선하고 생성하도록 지원한다”고 말했다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 8대 이상의 DGX GB200 시스템을 갖추고 있다. 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand)를 통해 연결된 수만 개의 GB200 슈퍼칩으로 확장할 수 있다. 고객들은 8개의 DGX GB200 시스템에 있는 576개의 블랙웰 GPU를 NV링크로 연결해 차세대 AI모델에 필요한 대규모 공유 메모리 공간을 구성할 수 있다.

DGX GB200 시스템으로 이루어진 새로운 DGX 슈퍼팟은 시스템들 간에 서로 통합된 컴퓨팅 패브릭을 갖추고 있다. 이 패브릭에는 5세대 엔비디아 NV링크 외 엔비디아 블루필드-3(BlueField-3) DPU가 포함된다. 별도로 발표된 엔비디아 퀀텀-X800 인피니밴드 네트워킹을 지원할 예정이다. 이 아키텍처는 플랫폼에서 각 GPU에 초당 최대 1800기가바이트의 대역폭을 제공한다.

또한 4세대 엔비디아 샤프(Scalable Hierarchical Aggregation and Reduction Protocol, SHARP) 기술은 차세대 DGX 슈퍼팟 아키텍처에서 이전 세대 대비 4배 증가한 14.4테라플롭의 인네트워크 컴퓨팅을 제공한다.

새로운 DGX 슈퍼팟은 데이터센터 규모의 AI 슈퍼컴퓨터로, 엔비디아 인증 파트너의 고성능 스토리지와 통합돼 생성형 AI 워크로드의 수요를 충족한다. 각 슈퍼컴퓨터는 공장에서 구축돼 케이블 연결과 테스트를 거쳐 고객 데이터센터에 배포하는 속도를 높인다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 지능형 예측 관리 기능을 갖추고 있다. 이는 하드웨어와 소프트웨어 전반에 걸쳐 수천 개의 데이터 포인트를 지속적으로 모니터링해 다운타임과 비효율성의 원인을 예측하고 차단하는 기능으로 시간과 에너지, 컴퓨팅 비용 등을 절감할 수 있다.

이 소프트웨어는 시스템 관리자가 없는 상태에서도 우려되는 영역을 식별하고 유지보수 계획을 수립한다. 또한 컴퓨팅 리소스를 유연하게 조정하고, 작업을 자동으로 저장하고 재개해 다운타임을 방지한다.

아울러 소프트웨어에서 교체가 필요한 구성 요소가 감지되면 클러스터는 대기 용량을 활성화해 작업이 제시간에 완료되도록 한다. 필요한 하드웨어 교체를 미리 예정할 수 있어 예기치 않은 다운타임도 방지할 수 있다.

네트워킹 스위치 X800 공개

엔비디아는 대규모 AI를 위해 설계된 새로운 네트워킹 스위치 X800 시리즈를 발표했다.

엔비디아 퀀텀-X800 인피니밴드(NVIDIA Quantum-X800 InfiniBand)와 엔비디아 스펙트럼-X800 이더넷(Spectrum-X800 Ethernet)은 엔드투엔드 800Gb/s 처리량을 지원한다.

엔드투엔드 처리량인 800Gb/s를 달성하는 엔비디아 퀀텀 Q3400 스위치와 엔비디아 커넥트X-8 슈퍼NIC(ConnectX-8 SuperNIC)가 포함된다. 이전 세대 대비 5배 높은 대역폭 용량과 9배 향상된 14.4T플롭의 인네트워크 컴퓨팅을 제공하는 엔비디아의 확장 가능한 프로토콜인 SHARPv4를 통해 이뤄진다.

스펙트럼-X800 플랫폼은 AI 클라우드, 엔터프라이즈 인프라에 최적화된 네트워킹 성능을 제공한다. 이 플랫폼은 스펙트럼 SN5600 800Gb/s 스위치와 엔비디아 블루필드-3(BlueField-3) 슈퍼NIC를 활용하고 있다. 또한 멀티-테넌트(Multi-tenant) 생성형 AI 클라우드와 대기업에 반드시 필요한 고급 기능 세트를 제공한다.

스펙트럼-X800은 네트워크 성능을 최적화해 AI 워크로드를 빠르게 처리, 분석, 실행함으로써 AI 솔루션의 개발, 배포, 출시 시간을 단축한다. 멀티 테넌트 환경을 위해 특별히 설계된 스펙트럼-X800은 각 테넌트의 AI 워크로드에 대한 성능을 독립적으로 보장한다.

한편, 엔비디아는 수조 개의 파라미터를 가진 AI 모델의 성능을 최적화하기 위해 네트워크 가속화 라이브러리의 전체 패키지, 소프트웨어 개발 키트, 관리 소프트웨어 제품군을 제공한다.