[디지털데일리 서정윤 기자] 오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다. 인터넷에 공개된 데이터를 찾아 대형언어모델(LLM)에 넣는 과정을 단순화한 툴이다. 오픈AI는 크롤링을 차단하는 방법도 함께 안내했다.
10일(현지시간) 벤처비트 등 외신에 따르면 오픈AI는 최근 웹크롤러 'GPT봇'을 공개했다. 웹크롤러란 방대한 웹페이지에서 각종 정보를 자동으로 수집하는 걸 뜻한다. 자동으로 데이터를 찾아오기 때문에 LLM 학습 데이터를 확보하기 쉬워진다.
오픈AI는 "GPT봇은 유료 구독을 요구하거나 개인식별정보를 수집해 오픈AI 정책을 위반하는 웹페이지를 걸러낸다"고 설명했다. 웹사이트 운영자는 사이트의 특정 부분만 크롤링하도록 허용하는 등 GPT봇의 접근을 맞춤화하거나 차단할 수 있다.
GPT봇의 일부 접근만 허용하기 위해서는 'robots.txt', 'Allow: /'directory-1/', 'Disallow: /directory-2/' 등에 GPT봇을 추가하고 필요에 따라 사이트의 특정 부분만 크롤링하도록 허용하면 된다.
만약 GPT봇을 완전 차단하고 싶다면 사이트의 'robots.txt'와 'Disallow: /'에 GPT봇 토큰을 추가하면 된다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
SKT 해킹, 웹셸서 비롯됐나…“임시서버 보안조치 강화하겠다”
2025-05-19 15:32:33SKT “추가 정보유출, 확인된 바 없다”…2차피해 발생 시 100% 책임
2025-05-19 15:05:22정부 “SKT, IMEI 유출 가능성 있지만…복제폰 생성은 불가”
2025-05-19 13:57:12SKT 해킹서 IMEI 포함된 서버 감염 확인…"유출 여부는 확인 안돼"
2025-05-19 11:09:50쇼핑엔티, 가정의 달 맞아 소외계층 지원 위한 바자회 개최
2025-05-19 10:44:04LGU+, 대학생 대상 ‘유쓰페스티벌’ 실시…안티딥보이스 체험장 마련
2025-05-19 09:40:55펄어비스, '붉은사막' 엔비디아 최신 기술 DLSS 4 적용
2025-05-19 15:31:17"음악증권 청약에 참여하면 배당금 2배" … 뮤직카우, 내달 18일까지 이벤트
2025-05-19 14:19:16컴투스플랫폼, 넵튠과 플랫폼 '하이브' 사용 계약 체결
2025-05-19 14:17:27넥슨, 신작 '빈딕투스' 6월 9일 글로벌 알파 테스트 시작
2025-05-19 11:44:51'퇴마록’이 들린다…밀리의 서재, 오디오북 국내 최초 공개
2025-05-19 11:34:55