[디지털데일리 홍하나기자] 최근 많은 IT기업들이 쏟아지는 데이터를 활용하기 위해 다양한 기술을 채택하고 있다. 빅데이터, 머신러닝 등은 고부가 가치 기술로 꼽히지만 진입장벽이 높다. 이에 메가존클라우드가 데이터 활용을 할 수 있는 간단한 방법에 대해 소개했다.
13일 과학기술정보통신부가 주최하고 정보통신산업진흥원(NIPA)과 디지털데일리가 공동주관하는 ‘오픈 테크넷 서밋2018’에서 이윤미 메가존클라우드 팀장<사진>은 오픈소스 검색엔진의 데이터 활용 기술 일라스틱서치(Elasticsearch)에 대해 발표했다.
일라스틱 기술은 아파치 루씬(Apache lucene) 기반의 오픈 소스 분산 검색엔진이다. 메인 기능 자체를 무료로 사용할 수 있어 일라스틱 사용이 늘어나고 있는 추세다. 일라스틱의 활용 범위는 기존 검색엔진의 전통적 활용에서 빅데이터 분석, 기계학습 예측, 학습으로 인한 확대적용 등으로 넓어졌다.
그중에서도 최근 일라스틱 기술 가운데 가장 각광받는 것이 머신러닝이다. 이 팀장은 “진입하기 어려운 머신러닝 기술을 가장 편하게 사용할 수 있는 것이 일라스틱 서치”라면서 “일라스틱에서는 전체 사용자인터페이스(UI)를 제공하고 있어 머신러닝에 대해 몰라도 데이터를 학습시킬 수 있다”고 밝혔다.
또 일라스틱은 역인덱스 방식을 채용해 여러 단어 가운데 원하는 단어를 빠르게 찾을 수 있다. 데이터의 키워드를 추출해 키워드 대상의 문서를 저장하는 방식이다. 따라서 단어가 어디에 있는지 더 빠르게 찾아낼 수 있는 것. 예를 들어 단어를 찾으면 해당 단어가 몇 페이지에 나와 있는지 알 수 있다.
데이터의 형태를 구애받지 않는 것도 장점이다. 최근 나온 버전은 한글형태소 기능을 탑재하고 있다. 반정형, 비정형 데이터가 많은 소셜데이터, 텍스트 등을 손쉽게 수집할 수 있는 것. 이 팀장에 따르면 현재 메가존클라우드 고객사에서 가장 많이 사용하는 방식이 형태소를 쪼개고 키워드를 꺼내 챗봇 학습에 사용하는 것이다.
일라스틱이 빅데이터와 비교했을 때 연산작업을 따로 할 수 있다는 것도 장점이다. 빅데이터의 경우 마스터모드가 작업을 지시하기 때문에 항상 이 모드를 부연해야 한다. 하지만 일라스틱은 사용자가 원하는 형태로 구성할 수 있다.
구체적으로 빅데이터는 데이터를 파티셔닝해서 저장한다. 일라스틱도 하나의 파일을 여러 개로 쪼갤 수 있다. 다만 빅데이터는 데이터를 세 개만 카피하지만 일라스틱의 경우 사용자가 카피 개수를 지정할 수 있다. 따라서 데이터 유실 가능성이 훨씬 적은 것이 장점이다.
이윤미 팀장은 “최근 데이터 사업에서 굉장히 많은 제품군이 나오고 있다”면서 “진입이 어려운 오픈소스 검색엔진 데이터활용 기술을 손쉽게 진입할 수 있는 일라스틱 서치가 시작단계에서 도움이 될 것”이라고 밝혔다.
<홍하나 기자>hhn0626@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52유료방송 시장, 역성장 지속…케이블TV 사업자 중 SKB 유일 성장
2024-11-22 13:28:49[디즈니 쇼케이스] 판타스틱4, MCU 합류…미소 짓는 케빈 파이기
2024-11-22 12:56:31LGU+, 기업가치 제고 계획 발표…"AX 컴퍼니 구조 전환 가속화"
2024-11-22 10:18:34LG헬로 송구영 대표이사 재선임…사업 수익성 개선 '총력'
2024-11-21 18:33:01드림어스컴퍼니, 자본준비금 감액해 이익잉여금 500억원 전입
2024-11-22 14:57:25야놀자·인터파크트리플, 12월 ‘놀 유니버스’로 법인 통합
2024-11-22 14:57:10논란의 ‘퐁퐁남’ 공모전 탈락…네이버웹툰 공식 사과 “외부 자문위 마련할 것”
2024-11-22 14:23:57쏘카·네이버 모빌리티 동맹 순항…네이버로 유입된 쏘카 이용자 86%가 ‘신규’
2024-11-22 12:58:15