실시간
뉴스

플랫폼

네이버 "韓 가장 잘 아는 검색엔진, AI에서도 우위 점한다"

[AI 검색이 온다]③ 20년 검색엔진 운영 노하우, AI로…색인·수집 고도화로 경쟁력↑

생성형 AI의 확산으로 '검색'의 개념이 바뀌고 있다. 단순한 결과 나열이 아닌 대화형·요약형·문맥형 검색, 즉 'AI 검색'이 새로운 기준이 되는 흐름이다. 포털 서비스를 운영 중인 네이버도 20년 넘는 검색엔진 운영 노하우와 자체 AI 모델 도입을 통해 AI 검색 인프라를 꾸준히 확대하고 있다. 이런 네이버의 시스템은 글로벌 빅테크인 '구글'과 가장 가까운 형태이자 '한국형 AI 검색 엔진'의 바로미터로 평가받고 있다. <디지털데일리>는 네이버를 만나 AI 검색 인프라 방향성 및 비전 등을 짚어봤다. <편집자 주>

[디지털데일리 채성오기자] 내년부터 AI 검색 경쟁이 본격화될 조짐을 보이는 가운데 '국내 특화 검색 기술'은 글로벌 모델과 어떤 차별화된 포인트를 가져갈 수 있을까. 네이버 검색 개발진은 최근 디지털데일리와의 인터뷰에서 '색인·수집 기술의 고도화가 AI 검색 품질을 좌우하는 핵심'이라고 강조했다.

네이버 사옥 전경. [사진=네이버 홈페이지 갈무리]


강유훈 네이버 AI 검색 플랫폼 리더는 "한국어 특성과 국내 웹 생태계를 누구보다 깊숙이 이해한 기술력이 결국 검색 품질에서 우위를 만든다"고 강조했다.

◆색인·수집부터 LLM·VLM 활용 랭킹 모델까지=색인은 '검색 과정에서 데이터를 빠르게 찾기 위해 정리해둔 구조'로 색인·수집 단계에서 얼마나 정확하고 맥락화된 데이터를 확보하느냐가 검색 품질의 차이를 만든다.

특히 국내 웹 문서는 구조가 다양하고 블로그나 카페처럼 비정형 데이터(가공되지 않은 정보)가 많은 편이다. 이를 정확하게 구조·벡터화(고차원 숫자열로 변환)하는 기술은 단기간에 만들기 어려운 작업으로 알려져 있다.

네이버는 20년 넘게 한국 웹 특성에 맞춘 색인 체계를 고도화하면서 단순히 페이지를 긁어오는 수준이 아니라 문서의 신뢰도, 맥락, 콘텐츠 유형, 이용자 반응 등을 반영해 계층적으로 수집·정제하고 있다. 이를 통해 AI 검색에 대한 답변 정확도를 높이는 것이 핵심이다.

강유훈 네이버 AI 검색 플랫폼 리더가 디지털데일리와 인터뷰를 진행하고 있다. [사진=네이버]


이를 통해 네이버는 국내 웹 생태계에 최적화한 색인·수집 기술부터 사용자 맞춤형 검색을 위한 벡터 색인, 거대언어모델(LLM)과 시각언어모델(VLM)을 활용한 랭킹 모델까지 더한 독자적 검색엔진을 고도화하고 있다. 블로그, 카페, 클립, 플레이스, 스마트스토어 등 텍스트부터 동영상, 상거래까지 여러 종류의 콘텐츠가 생산되는 플랫폼을 운영하며 영역별 양질의 웹문서가 갖는 특징을 정밀하게 검색 랭킹에 반영할 수 있다.

실제로 네이버는 지난 8월 랭킹 모델 업데이트를 통해 신뢰도 높은 출처가 검색 결과에 더 많이 노출될 수 있도록 관련 기술을 고도화하고 있다. 이 과정에서 차세대 기술로 꼽히는 LLM과 VLM을 활용해 단편적 통계 정보를 넘어 출처 성격, 사이트 구성, 대중 인식 등을 종합적으로 고려해 문서 신뢰도를 판단한다고 네이버 측은 설명했다.

이를 통해 공공기관 등 신뢰도 높은 출처에 대한 클릭은 77.2%, 학술·연구기관 등 전문성 높은 출처에 대한 클릭은 30.7% 증가했다. 또한 자체 평가 결과 신뢰도 지수와 전문성 지수도 각각 16.3%와 20% 가량 개선됐다.

강 리더는 "결국 리콜(재현율)과 프리시전(정밀도)의 밸런스가 중요하다. 색인 규모를 늘리면 리콜은 늘어나지만 안 좋은 문서도 많이 노출되기 때문에 프리시전을 떨어뜨릴 수 있다"며 "네이버는 20년 동안 검색엔진을 운영하면서 문제가 되지 않는 데이터를 축적해왔고 이를 통해 AI 학습을 하기 때문에 국내 사용자에 맞는 모델을 만들어 (타사 검색에 비해) 더 높은 품질을 구현하게 된 것"이라고 강조했다.

◆"한국 웹 생태계 깊이 들여다본 검색엔진, 빅테크가 쉽게 흉내내지 못하는 이유"=네이버는 차별적인 경쟁력의 또 다른 배경으로 '체질적인 차이'를 꼽았다. 글로벌 AI 모델의 성능 발전 속도가 빨라지더라도 한국 시장 맞춤형 색인·수집 기술과 웹 생태계 최적화 수준에서 오는 '구조적 우위'는 쉽게 대체되기 어렵다는 이유에서다.

[사진=네이버]


강 리더는 "구글 같은 빅테크는 전 세계 수십 개 언어와 거대한 국가의 웹을 모두 다루다 보니 한국 시장만을 위해 웹 생태계 전체를 세세하게 들여다보고 최적화하는 데 한계가 있다"며 "네이버는 한국어·한국 웹 생태계에 모든 리소스를 집중할 수 있는 데다 공공기관에서 최신 데이터를 빠르게 수집할 수 있는 체계도 경쟁력"이라고 설명했다.

AI 검색 시대에는 모델의 성능 고도화만큼이나 데이터 품질과 색인 체계의 안정성도 중요해질 전망이다. 특히 생성형 모델의 환각(할루시네이션) 문제를 줄이려면 정확한 문서 구조화와 신뢰도 판단이 필수다. 네이버는 이 부분이야말로 '한국을 가장 잘 아는 검색 엔진'이 갖는 본질적 강점이라고 주장한다.

마지막으로 네이버는 AI 브리핑 도입 이후 정보 요약을 넘어 출처 연결·후속 탐색·버티컬 영역 추천까지 확장한 경험을 바탕으로 'AI와 검색의 통합 경험'의 근간이자 정체성은 '검색'이라고 강조했다. 빠르게 정확도 높은 고품질 검색 결과를 제공하기 위해 AI를 활용하고 이를 바탕으로 이용자 신뢰도를 높이는 일이 무엇보다 중요하다는 이유에서다.

강 리더는 "검색 자체가 AI라고 생각하기에 결국 궁극적인 목표는 검색이 잘 되는 서비스를 만드는 것"이라며 "이용자가 대충 얘기해도 원하는 정보를 알 수 있게 만드는 게 AI 검색의 최종 목표이자 통합 관점에서의 서비스"라고 말했다.

디지털데일리 네이버 메인추가