[디지털데일리 이종현기자] “많은 기업이 회사의 비즈니스를 키우기 위해 데이터 분석을 위해 엔터프라이즈 데이터 웨어하우스(EDW), 하둡 등 다양한 시스템을 가지고 있습니다. 하지만 각각의 시스템은 저마다의 제약이 있습니다. 데이터를 잘 활용하기 위한 전략이 필요한 이유입니다.”(VM웨어 이상희 상무)
30일 VM웨어는 <디지털데일리>의 온라인 세미나(웨비나) 플랫폼 DD튜브를 통해 ‘성공적인 데이터 분석 및 활용을 위해 놓치지 말아야 할 3가지 기술전략’에 대한 발표를 진행했다. 최근 데이터 분석의 트렌드와 VM웨어가 제시하는 기술 전략 및 고객사례 등이 공유됐다.
발표자로 나선 이상희 상무는 최근 데이터 분석을 위해서는 빅데이터, 대용량 데이터 처리를 위한 병렬처리가 필수적이라고 강조했다. 그린플럼, 버티카, 하둡, 빅쿼리, 스파크, 엑사데이터, 스노우플레이크, 하이브, 레드시프트 등 많이 활용되고 있는 데이터 분석 시스템의 공통점이 병렬처리라는 설명이다.
또 분석된 데이터를 학습하고 결과를 예측하는 머신러닝/딥러닝의 적용도 트렌드로 자리 잡았으며, 최근 데이터 사이언티스트들이 사용하는 컴퓨터 프로그래밍 언어로는 파이썬과 SQL, R 등이라고도 소개했다.
이 상무는 데이터 분석 환경에서 기업들이 직면한 어려움은, 각각의 시스템에 대한 제약 및 한계가 있다는 점이라고 말했다. EDW 시스템의 경우 높은 SLA를 준수해야 한다는 점, 하둡의 경우 분석 플랫폼간 연동이 제한돼 전문가의 지원이 항상 필요한 점, 머신러닝/딥러닝 분석의 한계 등을 예시로 들었다.
이와 같은 어려움에 대해 VM웨어가 대안으로 제시하는 것은 ▲외부 데이터 소스를 추출·변환·로드(ETL) 없이 하나의 분석 시스템에서 연산 수행하는 ‘데이터 페더레이션(Data Federation)’ ▲빅데이터 처리를 위한 효과적인 데이터 모델링 적용 ▲인-데이터베이스 분석 등이다.
그는 “데이터 페더레이션은 다양한 외부 데이터 소스를 하나의 분석 시스템에서 다이렉트로 연동해 분석하는 방식이다. 다양한 외부 시스템의 데이터 소스와의 연기와 데이터 읽기/쓰기 기능 제공, 데이터 병렬처리를 위한 고속 성능 제공 등이 필수적”이라고 밝혔다. 이와 함께 대용량 데이터 처리를 위한 직렬화, 인-데이터베이스 방식의 병렬 처리 등도 효과적이라고 전했다.
고도화되고 있는 데이터 분석 시장에서 VM웨어가 제공하는 솔루션은 그린플럼이다. 그린플럼은 지난 2020년 VM웨어가 피보탈을 인수함에 따라 VM웨어의 제품 포트폴리오로 합류한 제품으로, VM웨어는 현재 ‘VM웨어 탄주 그린플럼’으로 제품을 공급 중이다.
이 상무는 “대용량 분석을 위한 병렬처리 기능을 탑재한 그린플럼은 기존 정형화된 관계형데이터베이스관리시스템(RDBMS)뿐만 아니라 인공지능/머신러닝(AI/ML)까지 지원한다”며 “정형 및 비정형 데이터에 대한 분석력을 극대화해 AI/ML을 위한 데이터 분석 플랫폼으로 진화했다”고 피력했다.
그린플럼을 이용한 고객사례로 미국 금융회사 싱크로니파이낸셜을 언급했다. 신용카드 사용자 중 정상적인 거래, 비정상적인 거래 등을 탐지하기 위한 예측분석에 활용, 1700개 이상 변수와 100억행 이상 등 기존 RDBMS로는 처리 및 분석이 불가능한 것을 해냈다는 설명이다.
이 상무는 “데이터 분석 플랫폼을 위해 기업들이 고려해야 할 것은 고성능이 보장된 병렬처리, 데이터 페더레이션, 빅데이터 모델에 맞는 아키텍처, 머신러닝/딥러닝을 데이터 이동 없이 고속 병렬처리하는 인-데이터베이스 방식, 또 온프레미스나 퍼블릭·프라이빗 클라우드 등 환경에 제약 받지 않는 유연한 시스템 구성이 필요하다고 정리할 수 있다”고 말했다.