[2019 데이터경제] 페이스북도 사용하는 AI 훈련 인프라 무엇?

백지영 기자 2018.11.08 16:39:56

[디지털데일리 백지영기자] 인공지능(AI)과 사물인터넷(IoT) 등 기술 패러다임으로 변화가 가속화되면서 데이터를 어떻게 효율적으로 운영, 관리할 것인지에 대한 논의가 계속되고 있다.

특히 AI나 머신러닝, 딥러닝을 기업 IT인프라 관점에서 보면 문제는 복잡해진다. 데이터 수집-정제-라벨링-샘플링-학습 등으로 이어지는 AI 프로세스에서 데이터를 저장, 분석할 인프라의 필요성 및 이동 시 데이터 로딩 시간의 단축은 기업 IT당자에게는 현실적인 문제로 다가온다.

하지만 데이터 접근 패턴과 유형, 파일 사이즈, 동시성에 따라 현재 각 단계별 데이터 저장 인프라는 분산돼 있는 상황이다.

쉐라톤 서울 디큐브시티호텔 그랜드볼룸에서 ‘[2019 데이터경제] 데이터 기반 엔터프라이즈 혁신 전략 컨퍼런스’에서 송성환 퓨어스토리지코리아 부장은 “데이터 레이크와 데이터웨어하우스(DW), 스트리밍 분석, AI 클러스터 등으로 분리된 IT 환경을 하나의 데이터 허브 개념으로 묶고, AI를 가속화할 수 있는 플랫폼이 필요하다”고 강조했다.

퓨어스토리지는 최근 ‘데이터 허브’라는 전략을 발표하며 데이터 유형이나 성능에 상관없이 하나의 통합된 인프라를 제공하는 것에 초점을 맞추고 있다. 이는 퓨어스토리지 혼자만 할 수 없다. 서버, 네트워크, 애플리케이션 업체와 협업해야 해결할 수 있는 문제다.

그는 “예를 들어 DW는 성능 및 IOPS 처리에, 데이터 레이크는 다양한 비정형 데이터를 순차적으로 확장하는 것에, AI는 멀티 GPU를 통한 병렬연산 환경에 맞춰져 있다”며 “이러한 요건을 모두 충족하는 데이터 허브의 레파지토리를 만들어보자는 것이 데이터 허브 전략의 취지”라고 설명했다.

이를 위해 퓨어스토리지가 강조하는 제품이 100% NVMe 방식의 고성능 오브젝트 스토리지 ‘플래시 블레이드’다. 플래시 블레이드는 소프트웨어 기반의 분산 네트워킹이 가능한 클라이언트 로드밸런싱와 스케일아웃 DB코어, 다이렉트플래시/NVMe 기반의 병렬 미디어 액세스가 가능한 것이 특징이다.

기존 파일시스템은 파일 개수와 크기, 디렉토리의 뎁스(depth)에 따라 성능 저하가 생기는 것이 단점이다. 플래시 블레이드의 경우, 데이터가 들어오면 백엔드에서 오브젝트 처리를 하기 때문에 파일 검색에 걸리는 시간을 줄여준다.

이와 함께 퓨어스토리지는 엔비디아와의 협력을 통해 AI 인프라 에이리(AIRI)를 출시하며, AI 구축와 운영을 도와준다, 에이리는 플래시블레이드와 엔비디아 DGX-1 슈퍼컴퓨터가 결합된 일체형 장비다.

페이스북의 경우, 이미지와 텍스트, 음성의 AI 훈련 인프라 용도로 10대의 퓨어스토리지 플래시 블레이드 클러스터와 2PB 이상의 데이터를 운영하고 있다. 당시 페이스북의 요구 성능은 랜덤 읽기 및 쓰기 성능이 각 70, 100GB/s 이상이었다.

현재 페이스북은 128여대의 엔비디아 DGX-1 노드와 70여대의 리눅스 서버에서 병렬 처리를 위한 용도로 플래시 블레이드를 사용 중이다. 이를 통해 분당 14만건의 이미지 업로드, 35만건의 자료 업데이트를 처리한다. 대부분 문자 분석, 안면 인식, 타깃 광고, AI 애플리케이션 디자인 및 예측 분석 용도다.

<백지영 기자>jyp@ddaily.co.kr

맨 위로