[오픈테크넷서밋 2020] 데이터 레이크 시대, 인젠트 "상용DB-오픈소스DB의 데이터 흐름 중요"

이상일 기자 2020.09.16 17:54:29

-현장중계 / 오픈테크넷 버추얼 서밋 2020

[디지털데일리 이상일기자] 과학기술정보통신부 주최, 정보통신산업진흥원(NIPA)·디지털데일리 공동 주관으로 16일부터 18일까지 3일 간 온라인에서 진행되는 ‘오픈 테크넷 서밋 컨퍼런스’ 첫날 데이터 뉴딜 정책의 핵심인 데이터 댐 전략과 관련해 효율적인 아키텍처 구성 방법이 논의됐다.

이 날 '데이터 레이크 시대, 개방형 혁신을 주도하는 HCI전략'을 주제로 발표한 노웅영 상무는 “데이터웨어하우스가 시장에서 어플라이언스 형태의 분석용 데이터베이스였다면 데이터레이크는 정형, 비정형, 로우 데이터, 바이너리 데이터 등 기업의 모든 데이터를 빅데이터 형태로 저장하는 것으로 다양한 데이터 소스에서 데이터 레이크로 데이터를 어떻게 흐르게 하는지가 중요해질 것”이라고 밝혔다. 

최근 업계에선 데이터 레이크를 활용해 데이터 댐이란 개념을 구현하고 기업 내부 및 외부에서 다양하게 활동할 수 있는 방안을 마련하고 있다. 

데이터의 종류가 다양해지고 많아짐에 따라 데이터베이스의 확장성, 안정성, 비용, 데이터 변환 등의 요건이 더욱 커졌다. 데이터 레이크로 데이터가 잘 흐르게 하기 위해선 ETL(추출·변환·적재), 데이터 캡처(Change Data Capture, CDC) 상용 솔루션, 메시지큐(MQ) 중 하나를 선택해야 한다. 

하지만 비용이 증가가 너무 크고 많고 다양한 원천 데이터를 모두 지원할 수 있느냐가 문제다. 여기에 일일 수백 기가(Giga)에서 수 테라(Tera)까지 데이터를 처리할 수 있을까 의문점들이 남는다. 

이에 대해 노 상무는 “그래서 나온 개념이 데이터 파이프라인이다. 데이터를 한 시스템에서 다른 시스템으로 이동할 때 도중에 변환하는 모든 처리요소를 뜻하는데 데이터 수집, 가공, 재가공, 조회 등의 기능이 기본적으로 필요하고 무엇보다 대용량 처리에 적합한 스케일 아웃이 가능한 아키텍처가 필요하다”고 지적했다. 

이런 면에서 각광받고 있는 것이 아파치 프로젝트의 ‘카프카’다. 아파치 카프카는 2011년 초 오픈소스로 전환됐으며 이후 기능이 빠르게 발전해 초근에는 메시지큐 데이터베이스처럼 활용되고 있다. 노 상무는 “실제 최근 SQL도 지원하고 있다. 오픈소스화되면서 빠르게 진화하고 발전하고 있다”고 밝혔다. 

인젠트의 고객사 중 한 곳은 데이터레이크를 구축하기 위해 카프카를 도입키로 하고 상용DBMS에서 카프카로 데이터 전송을 하기위해 상용 CDC를 활용키로 했다. 하지만 상용DBMS의 부하가 증가했고 상용CDC 라이선스 비용이 카프카 서버에 비례해서 증가하는 이슈가 발생했다. 

이에 인젠트와 고객사는 오픈소스 ‘포스트그레SQL’ 기반의 통합 데이터 플랫폼인 ‘엑스퍼DB’로 필요한 데이터를 이관하고 ‘엑스퍼DB-트랜스’를 통해 카프카로 데이터를 전송해주는 아키텍처를 구성했다. 

이를 통해 기존 상용 데이터베이스의 부하를 최소화하고 데이터 활용도를 극대화할 수 있었다. 노 상무는 “고객사는 엑스퍼DB와 엑스퍼DB-트랜스를 통해 기존 상용 DBMS의 부하감소와 상용CDC 비용절감, 그리고 뛰어난 확장성을 가지게 됐다”고 밝혔다. 

<이상일 기자>2401@ddaily.co.kr

‘오픈 테크넷 서밋(Open Technet Summit) 2020’ 버추얼 컨퍼런스에 여러분을 초대합니다.

과학기술정보통신부가 주최하고, 정보통신산업진흥원(NIPA)과 디지털데일리가 공동 주관하는 오픈 테크넷 서밋 컨퍼런스가 개최됩니다. 올해는 코로나19 감염 확산을 막기 위해 버추얼(온라인) 컨퍼런스로 오는 9월 16일부터 18일까지 3일 간 진행됩니다. 뉴노멀 시대를 맞이해 ‘언택트 시대, 데이터 중심 기업의 비즈니스 혁신을 위한 오픈 이노베이션 전략과 비전’을 주제로 진행됩니다. 독자 여러분의 많은 관심과 참여 부탁 드립니다.  

자세한 행사 일정 및 프로그램 안내