[어드밴싱AI24] AMD "DPU, AI 시스템 핵심…UEC 지원 모델 첫 출시"

실시간
뉴스

반도체

[어드밴싱AI24] AMD "DPU, AI 시스템 핵심…UEC 지원 모델 첫 출시"

디지털데일리 발행일 2024-10-11 13:15:45

샌프란시스코=고성현 기자

URL복사

9일(현지시간) '어드밴싱 AI 2024' 사전 브리핑에서 AMD 3세대 P4엔진을 선보이는 소니 지안다니 수석 부사장

[디지털데일리 고성현 기자] AMD가 인공지능(AI) 데이터센터 워크로드 성능 향상의 핵심인 데이터처리유닛(DPU) 역량을 강화한다. 이를 통해 개방형 표준에 맞춘 DPU 신제품을 출시하고 자체 서버용 CPU·GPU 확장의 판도를 마련하겠다는 목표다.

AMD는 10일(현지시간) 미국 샌프란시스코 모스콘 센터에서 개최한 '어드밴싱 AI 2024'에서 3세대 P4엔진을 기반으로 한 신규 DPU인 'AMD 펜산도 살리나 400(Pensando Salina 400)'과 백엔드 네트워킹 인터페이스 카드(NIC) 'AMD 펜산도 폴라라 400(Pensando Pollara 400)'을 공개했다.

펜산도 살리나 400과 펜산도 폴라라 400은 AMD가 개발한 3세대 P4 엔진을 기반으로 설계됐다. 펜산도 살리나 400은 하이퍼스케일용 프론트엔드(Front-end) 네트워크용 DPU이며, 펜산도 폴라라 400은 AI 데이터센터의 백엔드(Back-End) 네트워크용 DPU다.

DPU는 고성능 네트워크 인터페이스를 통해 데이터를 파싱(Parsing) 및 처리하고, CPU와 GPU로 효율적으로 전송하기 위해 활용하는 칩셋이다. 높은 유연성을 위해 프로그래밍이 가능한 프로그래머블필드게이트어레이(FPGA) 형태로 제작된다.

소니 지안다니(Soni Jiandani) AMD 펜산도 사업부 총괄 수석 부사장은 "데이터센터의 백엔드(Back-end) 환경에서는 1000개에 가까운 GPU가 서로 연결되는데, 이 과정에서 고성능 GPU와 CPU를 최대한 활용하는 것이 중요"하다며 "AI 워크로드를 실행하는 과정에서 고도로 동기화돼야 하는 GPU의 진행률이 떨어지면 중요한 연산이 손실돼 해당 작업을 다시 시작하거나 애플리케이션 수준 체크포인트로 되돌아가야 하는 일이 발생한다"고 설명했다.

데이터센터의 백엔드 네트워크란 데이터센터 내 장치 간 유·무선으로 연결돼 데이터가 이동하는 인터커넥트 환경을 의미한다. 데이터센터가 서버 단계를 넘어 하이퍼스케일로 접어들면서 이같은 백엔드 환경의 중요성이 점점 높아졌고, 이에 따라 DPU의 역할도 크게 확대되는 추세다. 특히 AI 산업이 발전하면서 데이터 규모가 급증하고 서로 연결되는 GPU 수가 급격히 늘어나면서 장치 간 과부하가 걸리는 일도 빈번하게 증가하고 있다.

AMD는 중요성이 커지는 DPU 기술을 확보하기 위해 네트워크용 FPGA 강자인 자일링스를 2021년 인수했으며, 이듬해 펜산도까지 인수하며 관련 역량을 확보한 바 있다. 아울러 시스코·인텔·브로드컴·마이크로소프트 등이 참여하는 울트라이더넷컨소시엄(UEC)에 합류해 관련 기술 표준 정립에 기여하고 있다.

AMD가 이날 처음 공개한 'AMD 펜산도 폴라라 400'은 UEC 표준을 지원하는 최초의 DPU다. 펜산도 폴라라 400은 AMD가 개발한 3세대 P4엔진을 기반으로 설계됐으며, 지능형 다중 경로 기술을 사용해 최적의 경로에 패킷을 분산해 정체를 방지하고 가용성을 극대화하는 구조를 띤다. AMD는 이를 활용할 시 범용적인 제품 대비 최대 6배에 달하는 성능 향상을 보여줄 것으로 내다봤다.

회사는 이러한 DPU 역량을 기반으로 AI 데이터센터의 모든 요소를 담당하는 기업으로 거듭하겠다는 목표다. CPU나 AI가속기 등 단일 칩 제품에 그치지 않고, 이를 연결하는 플랫폼까지 구축해 시장 점유율을 더욱 높이겠다는 의도다.

지안다니 수석 부사장은 "AMD는 프론트엔드 네트워크 DPU와 백엔드 네트워크 DPU를 모두 구동할 수 있는 유일한 회사"라며 "미래에 대비한 총체적인 포트폴리오와 완전한 프로그래밍이 가능한 엔드 투 엔드 네트워크 솔루션을 제공할 수 있게 됐다"고 전했다.