네이버가 지난해부터 모바일 메인 개편에 이어 동영상 중심의 사용자경험을 위한 체질 개선, 창작자가 검색의 주인공이 되는 ‘인플루언서 검색’ 등 여러 굵직한 변화를 추진하고 있다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.
<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ▲빅데이터 & AI 플랫폼 ▲검색엔진 ▲엣지서버 ▲SRE ▲데브옵스 ▲음성인식 ▲클로바더빙 ▲클린봇2.0에 이어 ▲뷰(VEIW) 검색 모델링 개발진을 만났다. <편집자 주>
[디지털데일리 이대호기자] 지난 10월, 네이버 뷰(VIEW) 검색이 PC로도 들어왔다. 모바일의 검색 사용성을 PC에서도 이어가기 위한 조치다. 네이버 카페와 블로그, 포스트 등에 쌓인 사용자제작콘텐츠(UGC)를 찾기 위해 평소 뷰(VIEW) 검색을 애용했다면, 대단히 환영할만한 변화다. 매일 뷰(VIEW)를 찾았던 기자 역시 반색했다.
네이버 이용자들은 늘 뷰(VIEW) 검색을 접하고 있다. 전체 검색 키워드 중 약 96%에서 노출되는 중이다. 알게 모르게 뷰 검색이 가까이 있는 셈이다. 뷰 검색에 적용된 알고리즘은 네이버 검색력을 유지하는 가장 중요한 기반 기술 중 하나로 꼽힌다.
이처럼 흔한(?) 뷰 검색을 빛나게 만드는 것이 바로 ‘다이아(D.I.A.)’다. 다이아몬드를 떠올렸다면 잘 짚었다. 네이버 입장에서 그만큼 중요한 기술이다. 얼마나 검색 의도에 충실한 문서(Deep Intent)인지 분석(Analysis)해 랭킹에 반영하는 기술 모델로 네이버는 보다 진일보한 ‘다이아플러스(D.I.A.+)’ 기술도 적용했다.
◆‘UGC 검색’ 세계 최고 자부심
성남시 네이버 그린팩토리 사옥에서 만난 이윤동 소셜데이터엔지니어링 리더<사진 오른쪽부터>, 이지현 서치서비스플래닝 프로젝트매니저(PM), 박지현 소셜서치랭킹 연구원은 “UGC 검색은 회사 차원에서 신경 쓰는 영역”이라고 입을 모았다.
이윤동 리더는 “네이버가 하는 UGC 검색은 세계적으로도 볼 수가 없다”며 “세계적으로 봐도 잘 다루는 데이터 기술”이라고 힘줘 말했다. 이어서 “AI가 꾸준히 데이터를 학습하고 업그레이드해나가야 (클릭유도 등 어뷰징을 피해) 정상적인 서비스를 제공할 수 있다”며 “UGC 관련한 알고리즘 학습으로 세계에서 최고가 아닌가 자부한다”고 재차 자신감을 보였다.
네이버 이용자는 UGC 검색으로 수많은 경험을 간접 체험할 수 있다. 이러한 사용자 경험과 의견, 리뷰 문서를 잘 이해하는 알고리즘이 바로 ‘다이아’다. 현재 가격정보, 추천정보, 시점트렌드 정보에 이 기술이 반영돼 있다.
◆한국인에 맞는 패턴 분석
박지현 연구원은 “한국 사람들의 특징이기도 한데 가격을 언급하면서 후기를 작성하는 경우 많아 가격 관련한 패턴을 유심히 봤다”며 “추천 관련한 패턴도, 시의성을 요구하는 패턴도 보인다”고 전했다.
뷰 검색 뒷단에선 진성 경험이 담긴 좋은 문서를 찾아주는 다이아(D.I.A.)와 작성자(출처)를 분석하는 씨-랭크(C-Rank) 기술이 맞물려 돌아가고 있다. 씨-랭크는 누가 쓴 글이 얼마나 신뢰할 수 있는지, 어떤 주제에 얼마큼 집중하고 있는지, 사람들의 관심과 반응을 얻고 있는지 등 다각도로 검토한다.
이 중 다이아 기술에 딥 매칭과 패턴 분석, 동적 랭킹 등 새로운 연구를 반영해 다이아플러스(D.I.A.+)로 발전시켰다. 네이버의 표현을 빌리자면, 다이아플러스는 다이아를 좀 더 뾰족하게 개선한 기술이다.
◆질의만으로도 의도 파악
네이버는 사용자 질의만으로도 유의미한 수준의 의도를 밝힐 수 있다고 말한다. 질의 구조화 관점에서 보면 질의는 오브젝트(Object)와 프라퍼티(Property)로 나뉜다. 박 연구원이 예로 든 질의는 ‘포장이사 견적’이다.
포장이사가 오브젝트라면, 견적은 프라퍼티다. 프라퍼티에서 검색 의도가 드러난다. 유사한 프라버티만 모아서 검색 의도를 파악할 수 있겠지만, 여러 의미를 가진 중의적 표현에서 막힐 수 있다. 오브젝트와 프라퍼티를 함께 봐야 한다. 사이즈 프라퍼티만 해도 앞에 사직구장이 붙느냐, 레깅스냐 붙느냐에 따라 의도가 확연히 달라진다. 사직구장 사이즈라면 수용인원, 규모 등이 비슷한 질의군으로 묶이게 된다.
질의 의도 분류기는 딥러닝 언어 모델(BERT)로 유사한 질의 의도를 가진 질의들을 문맥에 기반해 분류(그룹핑)한다. 지식베이스, 사전 등의 개체들과의 매칭을 통해 구조화된 패턴으로 생성하고 있다는 게 네이버 설명이다. 이 모델은 새로운 질의(unseen query)의 의도 또한 찾아낼 수 있다는 강점이 있다.