실시간
뉴스

e비즈*솔루션

오픈AI, 웹 크롤러 'GPT봇' 공개…크롤링 막는 방법은?

사이트 운영자, GPT봇 접근 맞춤화·차단 가능

오픈AI 로고 [ⓒ오픈AI]
오픈AI 로고 [ⓒ오픈AI]

[디지털데일리 서정윤 기자] 오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다. 인터넷에 공개된 데이터를 찾아 대형언어모델(LLM)에 넣는 과정을 단순화한 툴이다. 오픈AI는 크롤링을 차단하는 방법도 함께 안내했다.

10일(현지시간) 벤처비트 등 외신에 따르면 오픈AI는 최근 웹크롤러 'GPT봇'을 공개했다. 웹크롤러란 방대한 웹페이지에서 각종 정보를 자동으로 수집하는 걸 뜻한다. 자동으로 데이터를 찾아오기 때문에 LLM 학습 데이터를 확보하기 쉬워진다.

오픈AI는 "GPT봇은 유료 구독을 요구하거나 개인식별정보를 수집해 오픈AI 정책을 위반하는 웹페이지를 걸러낸다"고 설명했다. 웹사이트 운영자는 사이트의 특정 부분만 크롤링하도록 허용하는 등 GPT봇의 접근을 맞춤화하거나 차단할 수 있다.

GPT봇의 일부 접근만 허용하기 위해서는 'robots.txt', 'Allow: /'directory-1/', 'Disallow: /directory-2/' 등에 GPT봇을 추가하고 필요에 따라 사이트의 특정 부분만 크롤링하도록 허용하면 된다.

만약 GPT봇을 완전 차단하고 싶다면 사이트의 'robots.txt'와 'Disallow: /'에 GPT봇 토큰을 추가하면 된다.

디지털데일리 네이버 메인추가
x