시리즈
구글도 한국선 2류…세계 최고 검색 이렇게 만들어진다
디지털데일리
발행일 2010-01-27 14:38:57
-[기획/네이버 10년, 대한민국 인터넷 10년 그리고 미래⑤]
[디지털데일리 심재석기자] 검색엔진의 역할은 공개돼 있는 정보 중에서 사용자가 요구한 정보를 찾아내 보여주는 것이다. 공개돼 있지 않은 정보나 존재하지 않는 정보를 찾아내는 것은 검색엔진이 할 수 있는 일이 아니다.
전 세계적으로 이 같은 역할을 가장 잘 하는 회사는 구글이다. 구글의 검색로봇은 전 세계 수억 개에 달하는 웹사이트의 정보를 수집해 낸다. 이 정보들은 구글의 데이터센터에 차곡차곡 저장돼 있다가 사용자의 검색질의에 맞춰 구글 웹사이트에 표출된다.
구글의 랭킹 알고리듬도 세계 최고 기술로 평가받고 있다. 구글의 랭킹 알고리듬인 페이지랭크는 웹페이지들의 링크를 분석해 가장 적합한 검색결과를 먼저 보여준다.
검색엔진 기술의 핵심인 크롤링, 색인, 랭킹 면에서 구글이 최고라고 인정받고 있다.
하지만 이같은 평가와는 별개로, 한국인들은 대부분 구글을 사용하지 않는다.
한국에서 구글의 검색 점유율은 여전히 5%를 넘지 못하고 있다. 최고의 기술을 보유한 구글의 검색엔진을 한국 네티즌들은 왜 사용하지 않을까. 당연히 이유가 없을리 없다.
이에 대해 NHN의 한 관계자는 “한글로 된 웹 문서가 많지 않아 검색할 대상이 적기 때문”이라고 설명했다.
구글 검색로봇의 성능은 훌륭하지만, 수집할 정보들이 많지 않다는 것이다. 수집할 정보가 많지 않으니 검색만족도가 떨어지고, 당연히 이용자가 늘지 않는 것이다.
이처럼 좋은 검색기술만으로는 좋은 검색결과를 보여줄 수 없는 것이 국내 인터넷의 현실이다.
이 때문에 국내의 주요 검색 포털들은 검색엔진을 성능을 개선하는 것과 동시에 또 하나 역점을 둬야하는 분야가 있다.
바로 검색 대상이 될 콘텐츠를 확보하는 데 주력하는 것이다.
예를 들어, 실제로 네이버는 2009년에만 27개의 공공기관과 11개의 전문협회 등 140여개 단체와 검색DB 확보를 위한 제휴를 맺었다. 이는 이용자 콘텐츠의 정보 신뢰도 한계를 극복하기 위한 것이다.
정작 이용자들이 찾기를 원하는 역사자료나 희귀동식물 자료, 학술논문 등 공신력있는 정보는 DB 보유기관들이 외부에 공개하지 않는 경우가 많기 때문에 제휴를 통해 콘텐츠를 확보하는 것이다.
네이버는 ‘국립중앙과학관’, ‘서울대공원’, 환경단체 ‘무지개세상’ 등과 제휴를 통해 ‘큰개미핥기’에서 ‘방울꽃’에 이르기까지 6400여종에 달하는 동식물 정보가 ‘자연도감’에 서비스되고 되고 있다.
서울대병원은 980건의 질병에 관한 상세한 의학정보를, 중앙응급의료센터는 위급한 경우 찾을 수 있는 집근처 병원 및 약국 등 응급의료기관 정보를 제공하고 있다.
최근에는 시장경영지원센터와 전통시장 관련 정보 공동활용을 위한 업무 협약 체결해 전국 1550곳 전통시장 정보를 제공키로 했다.
국회도서관, 한국과학기술정보연구원 등 전문기관과 제휴해 1360만건에 달하는 학술자료들을 선보였다. 서울연극센터와 제휴해 제공하는 120여개 소극장 정보와 국립현대미술관이 보유한 1600여명 작가의 6천여점에 이르는 미술작품 정보를 확보했고, 국립국악원과 제휴해 국악관련 콘텐츠도 선보일 예정이다.
경쟁사인 다음도 한국물가협회와 제휴해 물가정보를 검색할 수 있도록 제공하고, 스포츠 경기 결과 DB를 확충하는 등 검색성능 개선활동 이외에 검색 대상이 되는 콘텐츠를 확보하기 위해 안간힘을 쓰고 있다.
이런 정보들은 지금까지 검색엔진이 검색하지 못한 정보들이었다.
네이버는 공개된 정보를 찾아내는 역할뿐 아니라 비공개 정보를 세상 밖으로 꺼내는 역할도 함께 하고 있는 것이다. 존재하지 않는 정보는 만들어가기도 한다.
특히 이용자가 원하는 정보가 있다 없다, 찾을 수 있다 없다의 문제를 넘어 검색된 정보를 믿을 수 있느냐의 문제도 중요한 이슈로 떠오르고 있다.
랭킹 알고리듬만으로는 정보의 신뢰성까지 확보하기 힘든 것이 사실이다.
이를 위해 네이버는 2009년 초 대한의사협회, 서울지방변호사회, 노동부, 한국공인노무사회 등 전문기관과 제휴해 지식iN의 의료, 법률, 노동법 관련 질문에는 전문가들이 답변하도록 했다.
신뢰할 만한 전문 정보가 부족한 상황을 극복하기 위한 대책인 것이다. 현재까지 2천여명 이상의 전문가들이 약 18만건의 답변을 작성해 이용자에게 직접적인 도움을 주고 있다.
이와 관련 네이버측은 “검색엔진이 크롤링해오는 자료량이 늘어나더라도 복제된 자료가 많고, 자료의 신뢰도를 담보하기 어렵다”면서 “포털이 전문기관과 콘텐츠 제휴를 확장하는 것은 정보가 많아지면 많아질수록 가치있는 정보찾기가 더욱 힘들어진다는 현상에 기인한다”고 말했다.
<심재석 기자>sjs@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지