[디지털데일리 왕진화 기자] “전통적인 데이터 웨어하우스 방식으로 데이터를 구별할 수 없는 팔레트에 쌓아 창고를 저장하고 지게차로 하나씩 트랙에 옮겨 싣기보다는, 효율적인 컨베이어벨트로 연결된 조립 라인이 가득 찬 데이터 공장에서 원시데이터를 끊임없이 공급하는 게 중요합니다.”
11일 <디지털데일리> 웨비나 플랫폼 ‘DD튜브’에서 개최된 'SaaS 활용 및 고도화 전략 버추얼 컨퍼런스’에서 이정훈 SK C&C 디지털플랫폼개발그룹 테크·이노베이션 팀장은 “슈퍼 클라우드를 선도하는 플랫폼 기업들은 모던 데이터 스택(stack) 각 요소에서의 특화된 솔루션으로 진화하고 있다”며 이같이 강조했다.
데이터 공장은 다양한 내부 및 외부 고객을 위해 맞춤화되고 진화하는 데이터 제품을 끊임없이 생산해야 한다. 데이터 공장을 운영하는 기업들의 주요 관심사는 다양하다. 공장에서는 고품질 데이터 제품을 계속 생산하고 있는지, 공장을 운영하는 데 비용은 얼마나 드는지, 변화하는 고객 요구 사항이 무엇인지, 이와 관련해 또 얼마나 빠르게 공장을 조정할 수 있는지 등이다.
이정훈 팀장은 “데이터 파이프라인을 관리하고 모니터링할 수 있는 도구인 ‘에어플로우’ 및 dbt와 같은 데이터 변환 프레임워크를 활용해서 쉽게 파이프라인을 재설계 가능하게 할 수 있다”며 “다만 기업 관점에서 전사적인 데이터 플랫폼을 구축하는 일은 쉽지 않다”고 말했다.
이어 “리소스가 제한적인 디지털트렌스포메이션(DT) 조직에서 이 모든 기술적인 요소들을 고려해서 데이터 플랫폼을 한 땀 한 땀 만드는 일은 자칫 기술적인 부채를 쌓게 한다”며 “어떤 시스템을 구축하거나 플랫폼을 만들 때 기술적인 부채는 자연스러운 현상이지만 꼭 필연적이라고는 할 수는 없다”고 덧붙였다.
기술적인 부채를 최소화할 수 있는 전략은 사전에 고민돼야 한다. 하지만 많은 기업들은 구성 보안 아키텍처를 운영하는 데 많은 어려움을 겪고 있는 것도 사실이다. 이 팀장은 이러한 데이터 문제 해결에 도움을 주기 위해 스페이스X 사례를 들기도 했다.
이 팀장은 “스페이스X는 운송 비용을 셔틀 비용에 비해 약 3% 수준으로 낮췄다고 한다”며 “이는 발사체 재활용 등 기술적 혁신이 뒷받침돼 있기 때문”이라고 설명했다. 여기서 이 팀장은 나사 및 스페이스X 개발 방식을 강조했다.
나사는 모든 과학자와 엔지니어들이 모든 계산을 완벽하게 해내고 시뮬레이션을 통해서 발사체를 개발했다. 반면 스페이스X는 일단 빨리 만들어서 발사를 해보고 문제를 확인한 뒤 개선하는 방식으로 개발을 진행했다. 규모로 보기엔 차이가 많지만, 이러한 린스타트업(Lean start-up) 방식은 데이터 문제를 해결하는 상황에도 대입해볼 수 있다는 것이다.
이 팀장은 “데이터 사이언스 웍은 데이터 클리닝보다는 머신 러닝에 집중돼야 한다”며 “린스타트업으로 이터레이션 주기를 갖는 방식으로 속도를 높이고, 그 과정에서 모델 정확도를 높여가고 업무로부터의 피드백을 반영해야 한다”고 강조했다.
이어 “데이터가 흐르는 조직이 생성돼야 하고 데이터 엔지니어 과학자뿐만 아니라 현업 전문가도 필요한 데이터를 쉽게 찾아 쓸 수 있어야 하며, 누구의 도움 없이 접근하고 활용할 수 있는 체계가 필요하다”고 설명했다.
그렇다면 모던 데이터 스택을 만족하는 플랫폼 구축을 위한 선택지에는 어떤 것이 있을까. 먼저, 각 솔루션을 필요할 때마다 적용하는 ‘베스트 오브 브리드(Best-of-breed)’ 방식이 있다. 그러나 이는 통합 문제, 데이터 사일로 현상 등을 발생시킬 수 있다. 통합된 하나의 솔루션인 ‘베스트 오브 스위트(Best-of-Suite)’ 방식도 있다. 다만 각 단위 기능의 품질이 안 좋을 수도 있다는 단점이 있다.
이 팀장은 “SK C&C ‘클라우드 온 클라우드’형 플랫폼은 데이터 사일로 현상을 방지하고, 경쟁력 있는 개별 컴포넌트를 탑재해 두 가지 방식 문제를 풀어왔다”며 “올해 추가적인 파트너링을 통해 데이터 로봇 같은 경쟁력 있는 제품 등을 늘릴 예정”이라고 말했다.