실시간
뉴스

시리즈

네이버 검색은 수작업?… 컬렉션 랭킹 알고리즘에 숨겨진 비밀

-[기획/네이버 10년, 대한민국 인터넷 10년 그리고 미래④]

[디지털데일리 심재석기자] 네이버는 권력인가?

 

만약 네이버가 이런 질문을 받는다면 이렇게 되물을 것이다.  "질문을 좀 더 구체적으로 해주시죠.  어떤 권력을 의미하는 것인지..."

 

'권력'이라는 부정적 뉘앙스의 단어를 '힘' 또는 '영향력'이란 단어로 치환한다면 모를까 포털에게 '주어진 권력'이란 성립될 수 없는 일이다. 물론 네이버가 가진 힘의 크기때문에 이것이 시장에서는  권력으로 비쳐지는 것도 사실이다.

 

그러나 그것은 인식의 오류일 뿐이다. 컬렉션 랭킹 알고리즘을 이해한다면.  

 

지난 2007년 한나라당 진수희 의원은 ‘검색서비스사업자법’이라는 법률 제정안을 발의한 바 있다. 이 법안은 포털 등 검색사업자들이 반드시 지켜야 할 의무를 규정하고 있었는데, 그 중 하나가 ‘자동검색’이었다.

법안은 특정 업체를 언급하고 있지는 않지만, 업계에서는 이 법안이 ‘네이버’를 겨냥하고 있다고 생각했다. 당시 정치권 일부에서는 네이버가 검색결과를 수작업으로 편집한다는 인식을 하고 있었다. 이들은 네이버가 검색결과를 편집하는 과정에서 여론을 조작할 수 있다고 우려했다.

한나라당 김영선 의원도 지난 2008년 18대 국회가 시작하자 마자 유사한 내용의 검색사업자법을 발의한 바 있다.

그러나 NHN측은 “음란물 등 불법 콘텐츠, 명예훼손이 신고된 블로그 등를 삭제하는 것을 제외하고 검색결과에 손을 댄다는 것은 있을 수 없는 일”이라고 반박했다.

◆검색결과 편집이 아니라 콘텐츠 편집 =
네이버측은 ‘수작업 편집’에 대한 오해는 통합검색의 특성을 이해하지 못 데서 비롯된 면이 있다고 설명했다. 검색결과가 일목요연하게 정리돼 보여지는 통합검색의 특성 때문에 “수작업으로 편집했다”는 생각이 들게 됐다는 것이다.

특히 일부 검색 키워드에 대해 네이버가 자체적으로 콘테츠를 제작해 통합검색의 한 컬렉션검색결과로 보여주면서 이 같은 오해가 불거졌다. 네이버 통합검색은 ‘사람들이 찾는 것은 사이트가 아닌 정보’라는 기본 생각에서 시작됐기 때문에, 필요하다면 정보를 직접적으로 만들어 제공하기도 하기 때문이다.

예를 들어 ‘영화인기순위’라는 검색어를 입력하면, 네이버 검색결과 최상단에는 한국의 영화박스오피스 순위가 나타난다. 이는 네이버가 직접 콘텐츠를 제작해 보여주는 것이다. 사용자가 최소한의 클릭만으로 정보를 확인할 수 있도록 하기 위해 편집한 것이다.


연예인, 정치인, 유명 인사 등의 인물 정보 등도 네이버가 직접 콘텐츠를 제작해 검색결과의 최상단에 보여준다.

이는 분명 검색결과에 네이버가 제작한 콘텐츠가 포함된 것이다. 그러나 검색결과를 편집한 것은 아니다. 예를 들어 네이버가 어떤 의도로 영화 박스오피스 순위를 바꾼다는 것은 상상하기 힘들다. 이는 뉴스, 블로그, 카페, 웹사이트 모든 컬렉션에 해당된다.

네이버는 또 국내의 부족한 웹문서 환경을 극복하고 검색결과 만족도 제고를 위해 콘텐츠를 직접 제작하거나, 두산동아백과, 통계청, 국세청, LG경제연구원, 국립중앙도서관 등 전문자료 보유기관과 제휴를 맺고 검색결과를 보여주기도 한다.

네이버측은 “포털검색은 모두 알고리듬에 의해 이뤄지지 수작업에 의해 이뤄지지 않는다”면서 “좋은 검색 결과를 위해 콘텐츠를 직접 제작하거나 제휴를 맺는 것일 뿐”이라고 말했다.
 
◆구글은 페이지랭크, 네이버는 컬랙션 랭킹 = 일반적으로 구글 검색 알고리즘의 핵심은 ‘페이지 랭크’라는 이름으로 알려져 있다. 이 알고리즘은 각 웹페이지가 서로를 참조하고 있는 정도에 따라 문서의 중요도를 정하는 방법이다.

그러나 네이버의 검색 알고리즘에 대해서는 알려지지 않은 면이 있다.

네이버 검색의 핵심 기술은 ‘컬렉션 랭킹’과 ‘만족 클릭’에 있다. 컬렉션 랭킹이란, 블로그∙지식iN∙카페∙뉴스∙웹페이지 등 통합검색의 각 컬렉션 중 어떤 것을 먼저 보여주는지를 결정하는 알고리즘이다.


네이버는 이용자가 특정 단어나 문구를 검색했을 때 각 컬렉션 중 만족도가 높은 콘텐츠가 속한 컬렉션을 검색 결과 상단으로 올리는 검색 서비스를 제공하고 있다.

예를 들어 ‘원전’이라는 단어를 검색하면 최신뉴스가 가장 먼저 보여진다.
최근 아랍에미리트연합 원전 수주를 계기로, 원전 뉴스에 대한 관심이 높아졌기 때문이다.


반면 인기그룹 소녀시대’를 검색하면 인물정보가 가장 먼저 뜬다. 검색 키워드에 따라 사용자가 원하는 정보가 무엇인지 네이버 검색엔진이 판단해서 가장 적합한 정보가 실린 컬랙션을 최상단에 배치시키는 것이다.

이를 위한 네이버의 핵심 기술은 ‘만족 클릭’을 찾아내는 알고리즘이다. 이는 사용자의 만족도를 검색결과 랭킹에 반영하는 기술로, 만족클릭이 높은 콘텐츠가 포함된 컬렉션을 우선적으로 보여주게 된다.

페이지랭크가 구글의 핵심 알고리즘이라면, 네이버의 검색의 핵심은 만족클릭을 통한 컬렉션 랭킹이다. 네이버 검색엔진은 만족클릭을 찾아내기 위해 각 콘텐츠의 체류시간, 재질의 여부 등 다양한 조건을 측정한다.

회사측은 “컬렉션에 대한 이용자들의 보다 많은 클릭이 그 컬렉션에 대한 좋은 품질을 반드시 보장하는 것은 아니기 때문에, 이용자의 검색 행태를 근거로 클릭 만족도를 분석하해 만족 클릭만을 선별하고, 상위에 노출되는 컬렉션이 보다 많이 클릭되는 쏠림 현상을 보정한다”고 설명했다.

NHN 이준호 COO(최고운영책임자)는 “만족 클릭 선별 및 위치 프리미엄 보정 기술은 컬렉션 랭킹뿐 아니라 검색 전반에 활용될 수 있는 핵심 기술”이라며 “네이버는 세계 최고 수준의 검색 기술 연구와 투자를 통해 핵심 경쟁력인 검색 기술을 지속적으로 발전시켜 나갈 것”이라고 밝혔다.

<심재석 기자>sjs@ddaily.co.kr
디지털데일리 네이버 메인추가
x