실시간
뉴스

소프트웨어

“비정형 데이터 시대의 개막”…기업들, 괴물과 맞서다

비즈니스인텔리전스(BI) 능력은 기업의 경영성과를 좌우할 수 있는 결정적인 요소 중 하나다. BI 시스템을 활용하는 능력은 분석과 예측의 자동화, 실시간 의사결정, 마케팅 능력, 리스크 통제 능력과 맞닿아 있기 때문이다.

하지만 지금까지 BI 시스템에는 한계가 많았다. 데이터가 급증하면서 제대로 된 분석 보고서 하나 만들려면 며칠이 걸리기 일쑤였고, 이마저도 정확하게 분석이 된 것인지 의구심이 들 때가 많았다.

이 때문에 차세대 BI에 대한 관심이 고조되고 있다. 차세대 BI는 어떤 모습일까. 이에 디지털데일리는 ▲비정형 데이터 분석 ▲실시간 분석 ▲비즈니스 분석(BA)라는 주제로 차세대 BI를 살펴볼 예정이다.[편집자주]

[기획/ 차세대 BI를 위해 핵심 3대 키워드] ①비정형 데이터 분석


[디지털데일리 심재석기자]모름지기 데이터란 일정한 형태로 그 속성을 구별해 놓은 것이다.

예를 들어 통신사의 고객 데이터는 이름, 나이, 성별, 주소, 주민등록번호, 이용 요금제 등으로 구별돼 있다. 컴퓨터는 나이를 기록하는 난에 숫자가 아닌 문자가 입력되면 에러 메시지를 출력한다.

이처럼 데이터를 속성에 따라 구별해 저장하는 것은 이렇게 해야 분석하기가 쉽기 때문이다. 30대 여성이 가장 좋아하는 상품은 무엇일까라는 질문에 나이·성별 필드를 검색해 알맞은 데이터를 찾아내면 쉽게 통계를 낼 수 있다.

반대로 형식이 정해지지 않은 데이터도 있다. 바로 비정형 데이터다. 비정형 데이터는 속성을 구별하지 않고 막무가내로 기록된 데이터다. 지금 이 기사도 특별한 형식을 갖추지 않고 있기 때문에 비정형 데이터라고 볼 수 있다.

비정형 데이터는 정형 데이터에 비해 분석이 어렵다. 고객들이 웹사이트 자유게시판에 막무가내로 써 놓은 불만사항의 의미를 컴퓨터가 파악하는 것은 쉽지 않은 일이다. 마치 얼굴이 없는 괴물과 같다. 그러나 비록 일정한 형체가 없을지라도 오히려 유의미한 형체로써 인식해야만 한다.

대입시험에서 객관식 문제는 컴퓨터가 쉽게 채점할 수 있지만, 논술은 컴퓨터가 채점하는 것이 어려운 것도 이 같은 이유다. 비정형 데이터를 통해 의미 있는 통계를 도출하는 것은 정형 데이터를 분석하는 것보다 훨씬 복잡하다.

그러나 비정형 데이터 분석 분석이 어렵다고 두 손을 놓고 있을 수만은 없다. 정형 데이터는 전체 데이터의 20%에 불과하기 때문이다. 나머지 80%의 데이터는 특별한 형식 없이 막무가내로 기록된 비정형 데이터.

특히 블로그, 소셜네트워킹서비스(SNS) 등을 통해 비정형 데이터가 늘어나는 속도가 매우 빠르기 때문에, 앞으로 비정형 데이터 비중은 훨씬 커질 것이라고 전문가들은 입을 모은다.

즉 기업의 현 상황을 파악할 때나 고객의 의견을 분석할 때, 정형 데이터만 분석해서는 실체의 20%밖에 알 수 없다는 것이다. 20%의 정보만을 가지고 자신의 고객들이 무엇을 원하는지, 어떤 불만을 가지고 있는지 파악하는 것은 불가능하다. 때문에 80%의 비정형 데이터를 어떻게 분석해 내느냐는 기업 경쟁력의 핵심이라고 볼 수 있다.


이 때문에 IT업계도 비정형 분석을 위한 다양한 기술을 선보이고 있다.

검색텍스트 마이닝 기술인 이용해 비정형 데이터를 분석하려는 시도가 대표적이다. 비정형 데이터에는 텍스트 이외에도 이미지, 동영상, 차트 등 다양한 형태가 있지만, 이 중에서도 그나마 분석이 쉬운 것이 텍스트이다.

분석소프트웨어 업체 SAS인스티튜트는 블로그, 웹시판, 소셜미디어 등에 표출된 고객의 감성을 분석해 그래픽으로 한 눈에 보여주는 솔루션을 제공하고 있다. 텍스트 정보로부터 고객과 파트너, 경쟁사들의 긍정 및 부정 반응을 해석할 수 있다고 회사측은 설명했다.

IBM
도 이와 유사한 'SPSS 모델러 데이터 마이닝 및 텍스트 애널리틱스 워크벤치'라는 제품을 보유하고 있다. IBM은 지난 해에는 대용량의 비정형 데이터를 저장, 분석할 수 있는 빅 인사이트라는 하둡 기반의 대용량 분석 솔루션을 선보이기도 했다.

테라데이터 등 데이터웨어하우스(DW) 업체들도 오픈소스 대용량 저장 프로젝트 하둡 등을 자사 기술에 반영해 비정형 데이터의 폭증에 대비하고 있다.

국내 소프트웨어 업계도 이 분야에서 발빠르게 움직이고 있다. 국내 SW업계는 주로 검색 솔루션 업체들이 이 시장을 주목하고 있다. 다음소프트 등이 소셜 분석 등의 영역에서 앞서가고 있으며, 다이퀘스트, 솔트룩스, 와이즈넛, 코난테크놀로지 등도 자연언어처리 기술을 이용한 비정형 데이터 분석에 힘을 쏟고 있다.

리포팅 툴 전문업체인 포시에스도 기업들이 정책수립할 때 의사결정을 위한 각종 통계기능의 개발을 지원하고 정형, 비정형 분석과 리포팅 기능을 제공하는 새로운 솔루션 OZ EQ를 선보였다.

비즈니스 인텔리전스 업계 한 관계자는 소셜네트워크서비스 등을 통해 비정형 데이터가 기하급수적으로 늘어나고 있다면서 이 데이터를 어떻게 다루는 지가 기업의 경쟁력을 좌우할 것이라고 말했다.

<
심재석 기자>sjs@ddaily.co.kr

디지털데일리 네이버 메인추가
x