[디지털데일리 이대호기자] 하루 3억건 가량의 검색 질의가 들어오는 네이버. 정확한 의도를 포함한 질의가 있는 반면, 다소 뭉뚱그린 질의도 적지 않다. 신조어, 유행어, 축약어 등이 질의에 포함돼 있다면 검색 의도를 더더욱 알아채기가 쉽지 않다.
예를 들어 ‘커여운 댕댕이’라는 질의가 있다. 블로그, 카페 등 사용자제작콘텐츠(UGC)가 많은 곳에서 쓰는 용어다. ‘귀여운 강아지’로 풀어쓸 수 있다. 네이버에선 이 같은 질의를 검색에 적합하도록 교정 혹은 확장을 거친다.
이를 위해 네이버는 ‘다이아(D.I.A.)’라고 이름 붙인 기술을 적용하고 있다. 뷰(VIEW) 검색에서 중요하게 작동하는 기술이다. 올해 들어서 다이아 플러스로 기술을 더욱 개선해 검색 의도에 적합한 문서를 매칭 중이다. 현재 가격정보, 추천정보, 시점트렌드 정보에 이 기술이 반영돼 있다.
보통의 사용자 질의는 오브젝트(Object)와 프라퍼티(Property)로 나눌 수 있다. 질의가 ‘포장이사 견적’이라면 이 중 포장이사가 오브젝트, 견적이 프라퍼티다. 프라퍼티에서 검색 의도가 드러난다. 유사한 프라버티만 모아서 검색 의도를 파악할 수도 있겠지만, 이 경우 여러 의미를 가진 중의적 표현에서 막힐 수 있다.
사직구장과 레깅스에 모두 적용할 수 있는 프라퍼티가 ‘사이즈’다. 사이즈의 경우 프라퍼티만 묶어서 정확한 의도 파악이 어렵다. 네이버는 비슷한 오브젝트 질의도 모았다. 유사 오브젝트들끼리, 유사 의미단위로 프라퍼티를 묶었다. 이러한 과정을 거쳐 UGC 검색 대응을 시작했다.
검색결과 최상위엔 이용자가 원하는 정보가 노출됐다. 네이버는 검색 랭킹 1000등 넘어서까지도 살펴봤다.
26일 박지현 네이버 UGC검색 랭킹 모델링 담당 연구원은 ‘눈치까지 챙긴 D.I.A.+ 시스템, 싹 다 찾아드립니다’ 데뷰(DEVIEW) 2020 발표에서 “1300등까지 보면 제목이나 문서 내 가격 키워드는 없지만 가격과 의미는 동일한 비용이 포함된 문서가 있었다”며 “이 문서들도 품질이 보장됐다면 더 잘 보여줘야 하지 않을까 검색 사용자 관점에서 고민했다”고 말했다.
영화 분야에서 스포는 스포일러(내용이나 결말을 미리 알려주는 행위)를 뜻한다. 게임 분야에서 스포는 스페셜포스(총싸움게임명)를 의미하는 경우가 많다. 박 연구원은 “축약어일수록 문맥까지 파악해야 한다”며 렉시컬 섭스티투션(Lexical substitution)을 통한 문서 확장 과정을 소개했다.
이 기술은 원 단어를 대체할 수 있는 다른 단어들을 대용량 한국어 코퍼스(뉴스, 책, 블로그, 백과 등)로 학습한 BERT(Masked LM)을 활용해 탐색한 뒤 대체할 단어가 사용된 문서가 원문과 같은 의미를 가지는지, 시맨틱 유사도를 계산해 확장 여부를 판단하게 된다.
네이버는 문서에서 의미 있는 부분들만 추려낸 본문 조각(스니펫 후보)을 생성하고 대량의 복잡한 검색 상용화를 위해 분석 효율화 과정도 거친다. ‘커여운 댕댕이’와 같은 다양한 문서 속 표현을 교정하고 확장한다. 검색 모델링에 활용되는 피처(feature)의 가중치는 동적으로 반영한다.
이후 ‘분당 재난지원금’과 ‘맥도날드 재난지원금’를 넣으면 각각 지원금 규모를, 지원금 사용 여부를 알려주는 식으로 검색 의도 차이를 알아채고 적합한 결과를 보여주게 됐다. ‘정자역 오피스텔 3000/70’ 등 단위가 들어있지 않은 표현도 알아채고 검색 결과를 보여준다.
박 연구원은 “문서 확장에선 챌린지가 많다. 보다 다양한 모델들도 사용해보고자 한다”며 “의도 분석 커버리지(기간, 날짜, 시간, 위치 등)도 계속 확대한다”고 개발 현황을 전했다.