[디지털데일리 백지영기자] 2016년 이세돌 구단을 4:1로 누른 알파고 이후 1년 반 후에 나온 알파고 제로는 단 24시간 훈련만에 알파고와 대등한 수준이 됐다. 72시간 훈련 결과 알파고와의 모든 대국에서 모두 승리하는 수준까지 올라갔다.
알파고는 선행학습을 통한 딥러닝을 채택한 반면, 알파고 제로는 바둑을 두는 기본방법만 훈련하고, 스스로 인지하고 훈련하는 강화학습 기법으로 진화해왔다. 그만큼 단기간에 많은 컴퓨팅 자원과 데이터 자원을 빠르게 활용한 것이다.
퓨어스토리지 송성환 부장은 4일 디지털데일리 DD튜브를 통해 진행된 ‘AI 엔터프라이즈 버추얼 컨퍼런스’에서 “알파고 제로 사례에서 볼 수 있듯 AI 프로젝트의 성공을 위해선 보다 많은 컴퓨팅 자원과 데이터 자원을 보다 빠르게 처리할 수 있는 인프라가 중요하다”고 강조했다.
그는 “현재 AI 프로세싱의 전체 파이프라인을 보면 수집-처리-학습-검증-활용의 5단계가 반복된다”며 “데이터의 처리 사이즈와 프로세스 활용과 병렬 처리 프로세스까지 단계별 처리 방식은 매우 가변적”이라고 말했다.
특히 기존 인프라에서 수집 처리 단계에선 대량의 데이터를 수집 시 기존의 아키텍처의 스토리지는 병렬 처리에 한계가 생긴다. 스토리지 병목으로 수집 지연이 발생할 수 밖에 없고 학습 검증 단계에서는 중간 레이어인 인터페이스 레벨에서 데이터를 충분히 로딩해주지 못하는 문제가 발생한다.
또 기존 네트워크 스토리지(NAS)는 전체 파일 시스템이나 디렉토리 트리 구조로 데이터가 많아지고 디렉터리 구조가복잡해지면 복잡해질수록 데이터 로딩을 위한 처리 기간이 길어질 수 밖에 없다.
송 부장은 “복잡한 데이터 패스 구조와 대량의 데이터를 빠르게 처리하기 위해서는 키-밸류 방식의 처리가 꼭 필요하게 된다”며 “키-밸류 방식은 각각의 데이터 블록에 값을 부여하고 메타DB로 핸들링하기 때문에 디렉토리 구조가 복잡해지고 데이터 양이 많아져도 동일한 응답 시간으로 모든 데이터의 로딩이 가능하다”고 설명했다.
그는 “또, 기존 AI 전체 파이프라인에서 각 단계에서 처리된 데이터를 다음 단계로 옮겨주고, 다시 로딩해 처리하는 방식은 데이터 이동과 로딩하는 시간이 점점 길어지기 때문에, 이를 하나의 데이터 그룹으로 묶을 수 있다면 전체 AI 프로세싱 시간을 획기적으로 단축할 수 있다”고 말했다.
퓨어스토리지 플래시 블레이드는 각 단계에서의 데이터 처리 성능 및 일정 수준 이상을 보장해 AI 환경에 최적된 새로운 스토리지 플랫폼이다. 데이터 통합 저장과 보안에 따라 배치성으로 데이터를 처리하는 데이터 레이크와 달리 실시간 데이터 처리가 가능해 공유할 수 있는 데이터 허브 역할을 한다.
특히 플래시 블레이드는 AWS 아웃포스트 서비스 레디 프로그램 인증을 받아 클라우드로의 쉬운 확장도 가능하다.
도한, AI 플랫폼 구축 시에서도 설계된 모델을 훈련하기 위해 최적의 컴퓨팅 자원과 컴퓨팅 자원 간에 고성능 인터 커넥션 지원 및 고성능 병렬 데이터 플랫폼도 필요하다. 하지만 이를 별도로 구축하는데는 많은 공수와 시간이 투입다.
송 부장은 “기업마다 차이는 있겠지만 보통 모델 설계에는 3주 정도의 길지 않은 시간이 걸리지만 플랫폼 구축에는 짧게는 수개월에서 길게는 1년까지 소요되는 경우가 많다”며 “필요한 시스템을 별도로 구매, 구축하고 튜닝, 안정화하기까지는 꽤 많은 시간을 투자해야 한다”고 말했다.
즉, DIY(DO It Yourself)로 AI 플랫폼을 구축할 경우 최고 8~9단계 이상의 단계별 사안을 충분히 고려해야 하는데 이 경우 높은 운영비용(OPEX)이 발생한다는 설명이다.
이를 위해 퓨어스토리지는 DIY와 총 소유비용(TCO)을 비교했을 시 50% 이상 저렴한 AI 전용 레퍼런스 플랫폼을 제공하고 있다. 이미 2018년 엔비디아, 시스코와 협력해 AI전 용 플랫폼을 런칭한 바 있다.
현재 퓨어스토리지의 AI 전용 플랫폼은 2개의 엔비디아 컴퓨팅 노드에서 64개 이상의 하이퍼스케일로 확장이 가능한 ‘에이리(AIRI)’와 시스코 GPU 서버를 결합한 플래시스택라는 모델 등 2가지로 제공한다.
이와 함께 최근 국내 AI 스타트업인 래블업과 협력해 GPU 뿐 아니라 스토리지를 보다 효율적으로 관리할 수 있는 통합 패키지를 만들었다. 래블업의 GPU 스케줄러 솔루션인 백엔드닷에이아이(Backend.AI)와 통합돼 업계 유일하게 제공하고 있다는 설명이다. 또, 퓨어스토리지 래피드 파일 툴킷을 통해 AI 프로세스 시간도 대거 단축할 수 있다.
송 부장은 “2018년 업계 최초 AI 플랫폼을 출시한 이후 현재까지 500개 이상의 고객 성공사례를 보유하고 있다”며 “국내에선 카카오, 엔씨소프트, 대형 제조사, 공공기관 등 다양한 기업이 활용 중”이라고 말했다.