[디지털데일리 홍하나기자] 최근 많은 IT기업들이 쏟아지는 데이터를 활용하기 위해 다양한 기술을 채택하고 있다. 빅데이터, 머신러닝 등은 고부가 가치 기술로 꼽히지만 진입장벽이 높다. 이에 메가존클라우드가 데이터 활용을 할 수 있는 간단한 방법에 대해 소개했다.
13일 과학기술정보통신부가 주최하고 정보통신산업진흥원(NIPA)과 디지털데일리가 공동주관하는 ‘오픈 테크넷 서밋2018’에서 이윤미 메가존클라우드 팀장<사진>은 오픈소스 검색엔진의 데이터 활용 기술 일라스틱서치(Elasticsearch)에 대해 발표했다.
일라스틱 기술은 아파치 루씬(Apache lucene) 기반의 오픈 소스 분산 검색엔진이다. 메인 기능 자체를 무료로 사용할 수 있어 일라스틱 사용이 늘어나고 있는 추세다. 일라스틱의 활용 범위는 기존 검색엔진의 전통적 활용에서 빅데이터 분석, 기계학습 예측, 학습으로 인한 확대적용 등으로 넓어졌다.
그중에서도 최근 일라스틱 기술 가운데 가장 각광받는 것이 머신러닝이다. 이 팀장은 “진입하기 어려운 머신러닝 기술을 가장 편하게 사용할 수 있는 것이 일라스틱 서치”라면서 “일라스틱에서는 전체 사용자인터페이스(UI)를 제공하고 있어 머신러닝에 대해 몰라도 데이터를 학습시킬 수 있다”고 밝혔다.
또 일라스틱은 역인덱스 방식을 채용해 여러 단어 가운데 원하는 단어를 빠르게 찾을 수 있다. 데이터의 키워드를 추출해 키워드 대상의 문서를 저장하는 방식이다. 따라서 단어가 어디에 있는지 더 빠르게 찾아낼 수 있는 것. 예를 들어 단어를 찾으면 해당 단어가 몇 페이지에 나와 있는지 알 수 있다.
데이터의 형태를 구애받지 않는 것도 장점이다. 최근 나온 버전은 한글형태소 기능을 탑재하고 있다. 반정형, 비정형 데이터가 많은 소셜데이터, 텍스트 등을 손쉽게 수집할 수 있는 것. 이 팀장에 따르면 현재 메가존클라우드 고객사에서 가장 많이 사용하는 방식이 형태소를 쪼개고 키워드를 꺼내 챗봇 학습에 사용하는 것이다.
일라스틱이 빅데이터와 비교했을 때 연산작업을 따로 할 수 있다는 것도 장점이다. 빅데이터의 경우 마스터모드가 작업을 지시하기 때문에 항상 이 모드를 부연해야 한다. 하지만 일라스틱은 사용자가 원하는 형태로 구성할 수 있다.
구체적으로 빅데이터는 데이터를 파티셔닝해서 저장한다. 일라스틱도 하나의 파일을 여러 개로 쪼갤 수 있다. 다만 빅데이터는 데이터를 세 개만 카피하지만 일라스틱의 경우 사용자가 카피 개수를 지정할 수 있다. 따라서 데이터 유실 가능성이 훨씬 적은 것이 장점이다.
이윤미 팀장은 “최근 데이터 사업에서 굉장히 많은 제품군이 나오고 있다”면서 “진입이 어려운 오픈소스 검색엔진 데이터활용 기술을 손쉽게 진입할 수 있는 일라스틱 서치가 시작단계에서 도움이 될 것”이라고 밝혔다.
<홍하나 기자>hhn0626@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
[DD퇴근길] '애플' 美 대규모 투자, 트럼프 덕?…스벅, 아메리카노 가격 오른다
2025-01-20 17:07:39쇼핑엔티, 설 수요 높은 농축수산물 할인 판매…“정부와 합심해 지원”
2025-01-20 17:03:41[오징어게임2 이펙트] 기대효과 반감?…'엑스오, 키티2', 3일 연속 1위
2025-01-20 17:02:09김태규 직무대행 "TV수신료 통합징수시 혼란 발생할 것"
2025-01-20 16:24:3923일 이진숙 위원장 운명의 날…헌재, 탄핵심판 선고일 확정
2025-01-20 15:35:00가온전선, 연 매출 사상 최고치 경신…"북미 수출·지앤피 실적↑"
2025-01-20 14:50:59"틱톡 따라잡기"...인스타그램 피드 비율 개편에 사용자 원성
2025-01-20 21:38:16넥슨 ‘드리프트’, 오버 드라이브 전환… 반등 질주 시작하나
2025-01-20 14:51:30행안부, 카톡 알림톡 도입했더니…행정 예산 연 40억원 절감
2025-01-20 14:51:12“더 짧고 재밌게”…네이버, 새해도 숏폼·AI 갈고닦기
2025-01-20 14:14:23