[디지털데일리 서정윤 기자] 오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다. 인터넷에 공개된 데이터를 찾아 대형언어모델(LLM)에 넣는 과정을 단순화한 툴이다. 오픈AI는 크롤링을 차단하는 방법도 함께 안내했다.
10일(현지시간) 벤처비트 등 외신에 따르면 오픈AI는 최근 웹크롤러 'GPT봇'을 공개했다. 웹크롤러란 방대한 웹페이지에서 각종 정보를 자동으로 수집하는 걸 뜻한다. 자동으로 데이터를 찾아오기 때문에 LLM 학습 데이터를 확보하기 쉬워진다.
오픈AI는 "GPT봇은 유료 구독을 요구하거나 개인식별정보를 수집해 오픈AI 정책을 위반하는 웹페이지를 걸러낸다"고 설명했다. 웹사이트 운영자는 사이트의 특정 부분만 크롤링하도록 허용하는 등 GPT봇의 접근을 맞춤화하거나 차단할 수 있다.
GPT봇의 일부 접근만 허용하기 위해서는 'robots.txt', 'Allow: /'directory-1/', 'Disallow: /directory-2/' 등에 GPT봇을 추가하고 필요에 따라 사이트의 특정 부분만 크롤링하도록 허용하면 된다.
만약 GPT봇을 완전 차단하고 싶다면 사이트의 'robots.txt'와 'Disallow: /'에 GPT봇 토큰을 추가하면 된다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
K-FAST 동맹 닻 올려…"K-콘텐츠 강화 위해 민관 뭉쳤다"
2025-04-23 18:01:24민주당 정보통신특위, 통신인프라 현안점검…KT혜화국사 현장방문
2025-04-23 17:31:34[DD퇴근길] MS·베데스다 또 그러네…‘엘더스크롤4 리마스터’, 한국선 이용 못해
2025-04-23 17:13:01[IT클로즈업] AI 태운 통신장비…韓 통신사, 장비 효율화·자동화 ‘집중’
2025-04-23 17:10:54넷플릭스 '탄금' vs 디즈니+ '나인퍼즐'…5월 韓 오리지널 격돌
2025-04-24 11:34:24문체부, 애니메이션 산업에 1500억원 투자한다…‘IP 강국’ 도약 시동
2025-04-24 11:29:42놀유니버스, NOL 브랜드 출범 기념 ‘NOL 페스티벌’ 국내편 개최
2025-04-24 10:27:55민주당 게임특위, 이스포츠 산업계 의견 경청… “국가 차원 정책 필요”
2025-04-24 10:06:51엔씨소프트, 정기 헌혈 캠페인 진행… 헌혈 기부 문화 확산 나선다
2025-04-24 09:37:22