[디지털데일리 홍하나기자] 최근 많은 IT기업들이 쏟아지는 데이터를 활용하기 위해 다양한 기술을 채택하고 있다. 빅데이터, 머신러닝 등은 고부가 가치 기술로 꼽히지만 진입장벽이 높다. 이에 메가존클라우드가 데이터 활용을 할 수 있는 간단한 방법에 대해 소개했다.
13일 과학기술정보통신부가 주최하고 정보통신산업진흥원(NIPA)과 디지털데일리가 공동주관하는 ‘오픈 테크넷 서밋2018’에서 이윤미 메가존클라우드 팀장<사진>은 오픈소스 검색엔진의 데이터 활용 기술 일라스틱서치(Elasticsearch)에 대해 발표했다.
일라스틱 기술은 아파치 루씬(Apache lucene) 기반의 오픈 소스 분산 검색엔진이다. 메인 기능 자체를 무료로 사용할 수 있어 일라스틱 사용이 늘어나고 있는 추세다. 일라스틱의 활용 범위는 기존 검색엔진의 전통적 활용에서 빅데이터 분석, 기계학습 예측, 학습으로 인한 확대적용 등으로 넓어졌다.
그중에서도 최근 일라스틱 기술 가운데 가장 각광받는 것이 머신러닝이다. 이 팀장은 “진입하기 어려운 머신러닝 기술을 가장 편하게 사용할 수 있는 것이 일라스틱 서치”라면서 “일라스틱에서는 전체 사용자인터페이스(UI)를 제공하고 있어 머신러닝에 대해 몰라도 데이터를 학습시킬 수 있다”고 밝혔다.
또 일라스틱은 역인덱스 방식을 채용해 여러 단어 가운데 원하는 단어를 빠르게 찾을 수 있다. 데이터의 키워드를 추출해 키워드 대상의 문서를 저장하는 방식이다. 따라서 단어가 어디에 있는지 더 빠르게 찾아낼 수 있는 것. 예를 들어 단어를 찾으면 해당 단어가 몇 페이지에 나와 있는지 알 수 있다.
데이터의 형태를 구애받지 않는 것도 장점이다. 최근 나온 버전은 한글형태소 기능을 탑재하고 있다. 반정형, 비정형 데이터가 많은 소셜데이터, 텍스트 등을 손쉽게 수집할 수 있는 것. 이 팀장에 따르면 현재 메가존클라우드 고객사에서 가장 많이 사용하는 방식이 형태소를 쪼개고 키워드를 꺼내 챗봇 학습에 사용하는 것이다.
일라스틱이 빅데이터와 비교했을 때 연산작업을 따로 할 수 있다는 것도 장점이다. 빅데이터의 경우 마스터모드가 작업을 지시하기 때문에 항상 이 모드를 부연해야 한다. 하지만 일라스틱은 사용자가 원하는 형태로 구성할 수 있다.
구체적으로 빅데이터는 데이터를 파티셔닝해서 저장한다. 일라스틱도 하나의 파일을 여러 개로 쪼갤 수 있다. 다만 빅데이터는 데이터를 세 개만 카피하지만 일라스틱의 경우 사용자가 카피 개수를 지정할 수 있다. 따라서 데이터 유실 가능성이 훨씬 적은 것이 장점이다.
이윤미 팀장은 “최근 데이터 사업에서 굉장히 많은 제품군이 나오고 있다”면서 “진입이 어려운 오픈소스 검색엔진 데이터활용 기술을 손쉽게 진입할 수 있는 일라스틱 서치가 시작단계에서 도움이 될 것”이라고 밝혔다.
<홍하나 기자>hhn0626@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
[AI시대, ICT 정책은②] 네트워크 준비지수 5위인데…우리 정부는 준비됐나
2025-04-19 08:00:00[DD퇴근길] 이마트 옆 다이소 옆 이케아…서울 '강동' 격전지로
2025-04-18 17:48:11넷플릭스 1분기 27%↑ 영업익 4조원…韓 ‘폭싹속았수다’ 흥행 언급도
2025-04-18 16:24:08[AI시대, ICT 정책은①] ‘정부주도→민간주도’…“인프라 위한 해외자본 유치 필수” 의견도
2025-04-18 15:28:56우리은행, 18일 알뜰폰 서비스 정식 출시…청소년 셀프 개통으로 차별화
2025-04-18 13:29:18네이버, 좌표찍기 알림 공지 시스템 도입…최수연 "이달 내 적용"
2025-04-18 19:04:20구글, 美 ‘반독점’ 재판서 유죄 판결… '사실상 해체' 위기 직면
2025-04-18 18:04:23[DD퇴근길] 이마트 옆 다이소 옆 이케아…서울 '강동' 격전지로
2025-04-18 17:48:11“무료 체험 뒤 몰래 결제?”…다크패턴, 근절 방안 마련한다
2025-04-18 16:23:01위믹스, 1차 바이백 중간경과 보고… 해킹 탈취 물량 바이백 완료
2025-04-18 14:27:08