전체 글

웹 스크래핑 타르핏: 실제로 누가 걸려드는가

웹사이트들이 AI 크롤러를 가두고 쓰레기 데이터를 주입하는 타르핏을 배포하고 있습니다. 하지만 이 트랩들은 GPTBot과 귀하의 가격 추적기를 구분하지 못합니다.

웹사이트들이 AI 크롤러를 위한 트랩을 설치하고 있다

2025년 초, Nepenthes라는 도구가 입소문을 탔습니다. 이 도구는 가짜 웹 페이지의 무한 미로를 생성하며, 각 페이지는 또 다른 가짜 페이지로 연결되어 크롤러가 탈출할 수 없는 루프에 갇히도록 설계되었습니다. 이 페이지들의 텍스트는 어떨까요? AI 학습 데이터셋을 쓰레기로 오염시키기 위해 알고리즘으로 생성된 무의미한 텍스트입니다.

Nepenthes만 그런 것이 아닙니다. Locaine과 같은 프로젝트와 늘어나는 오픈소스 "타르핏" 목록이 GitHub에 등장했으며, 이들의 주장은 모두 동일합니다. AI 기업들이 robots.txt를 존중하지 않는다면, 사이트 소유자들은 독약으로 맞서 싸우겠다는 것입니다.

이러한 동기는 타당합니다. arXiv의 학술 연구에 따르면, 신뢰할 수 있는 사이트들의 AI 차단율은 2023년 9월 23%에서 2025년 5월 거의 60%로 급증했습니다. BuzzStream의 분석에 따르면 상위 뉴스 사이트의 79%가 현재 robots.txt를 통해 AI 학습 봇을 차단하고 있습니다. 그리고 Cloudflare Radar의 보고에 따르면 2025년 중반 AI 관련 웹 트래픽의 75%는 검색이나 추론이 아닌 학습 목적으로 생성되었습니다.

하지만 타르핏은 자격 증명을 확인하지 않습니다. 왜 크롤링을 하는지 묻지도 않습니다. 그저 자동화된 것처럼 보이는 모든 것을 가둘 뿐입니다.

실제로 누가 걸려들고 있는가

의도한 대상은 명확합니다. 학습 데이터를 위해 공개 웹을 수집하는 GPTBot, ClaudeBot, 그리고 AI 기업의 크롤러들입니다. 문제는 타르핏이 OpenAI의 크롤러와 귀하의 가격 모니터링 스크립트 간의 차이를 구분하지 못한다는 점입니다.

타르핏은 자동화된 request 패턴을 감지합니다. 만약 귀하의 스크래퍼가 체계적으로 링크를 따라가거나, 일정한 간격으로 페이지에 접속하거나, JavaScript 실행을 건너뛴다면 (대부분의 AI 학습 크롤러가 작동하는 방식), 타겟처럼 보이게 됩니다. 이 트랩은 귀하가 경쟁사 가격을 추적하는 10인 규모의 이커머스 팀이라는 사실에 신경 쓰지 않습니다. 그저 봇 형태의 트래픽으로 인식하고 가짜 페이지를 제공하기 시작합니다.

이것은 단지 이론적인 이야기가 아닙니다. Rutgers와 Wharton의 연구에 따르면, AI 크롤러를 차단하는 사이트들은 전체 트래픽이 23.1% 감소하고 실제 사용자 트래픽은 13.9% 감소한 것으로 나타났습니다. 공격적인 차단 태세는 AI 스크래퍼만 막는 것이 아닙니다. 사이트 자체의 가시성에도 타격을 줍니다.

그리고 타르핏은 여기서 더 나아가 크롤러의 연산, 스토리지, 대역폭을 적극적으로 낭비하게 만드는 동시에, 구축 중인 모델이나 데이터베이스의 품질을 떨어뜨리는 데이터를 주입합니다.

에스컬레이션 단계

robots.txt는 언제나 신사협정이었습니다. 모두가 규칙을 따를 때는 잘 작동했습니다. 주요 AI 기업들이 이를 무시하기 시작하거나 ("검색을 위한 크롤링" 대 "학습을 위한 크롤링"에 대해 창의적인 해석을 찾아내면서), 사이트 소유자들은 대응을 격상했습니다.

그 패턴은 다음과 같습니다:

  1. robots.txt 차단: 정중한 요청
  2. User-Agent 필터링: 알려진 AI 크롤러 시그니처 차단
  3. 행동 감지: request 패턴을 통해 알려지지 않은 크롤러 포착
  4. 타르핏: 리소스를 낭비하고 데이터를 오염시키는 적극적인 대응책

각 단계는 더 많은 위협을 잡아냅니다. 동시에 더 많은 정상적인 트래픽도 함께 잡아냅니다. 4단계에 이르면 모든 자동화된 접근을 적대적인 것으로 취급하게 됩니다. 따라서 비교 서비스를 위해 공개된 제품 가격을 수집하는 스크래퍼가 무단으로 데이터를 수집하는 GPTBot과 동일한 트랩에 걸려들게 됩니다.

데이터 팀이 지금 해야 할 일

어떤 규모로든 데이터 수집을 운영하고 있다면, 타르핏이 규칙을 바꾸고 있습니다. 이전보다 몇 가지 사항이 훨씬 더 중요해졌습니다.

언제나 robots.txt를 준수하십시오. 기본적으로 들리겠지만, 이제는 필수적인 기본 전제입니다. 사이트들은 robots.txt를 1차 필터로 사용합니다. 이를 무시하면, 이 모든 타르핏 대응을 촉발한 AI 학습 봇과 동일한 부류로 취급받게 됩니다.

학습 크롤러처럼 보이지 않도록 하십시오. AI 학습 크롤러는 예측 가능한 시그니처를 가지고 있습니다. 모든 링크를 따라가고, 페이지를 대량으로 request하며, JavaScript를 건너뛰고, 일정한 간격을 유지합니다. 귀하의 스크래퍼가 동일하게 작동한다면 행동 감지에 걸릴 것입니다. 타이밍을 다양하게 하십시오. 필요한 것만 로드하십시오. 사이트에서 요구할 때 JavaScript를 실행하십시오. 스크래퍼가 차단되는 원인에 대해서는 Why Your Web Scraper Keeps Breaking에서 다룬 바 있습니다.

들어오는 데이터를 검증하십시오. 타르핏은 그럴듯해 보이는 쓰레기 데이터를 제공합니다. 파이프라인에서 response를 확인하지 않는다면, 마르코프 체인으로 생성된 텍스트를 실제 제품 설명으로 저장하게 될 수 있습니다. 검증을 나중에 추가하는 기능이 아닌 핵심 단계로 구축하십시오.

request 인프라에 투자하십시오. 기존의 방식(IP 로테이션, CAPTCHA 해결, 실패 시 재시도)만으로는 충분하지 않습니다. 현대적인 안티봇 시스템은 TLS 핑거프린트, 브라우저 동작, 세션 패턴을 분석합니다. Smart proxy routing이 도움이 되지만, 진짜 변화는 IP 수준에서 행동 수준 감지로의 전환입니다. JavaScript가 많은 사이트를 스크래핑하는 경우, browser-based collection이 점점 더 유일하고 신뢰할 수 있는 접근 방식이 되고 있습니다.

접근 격차가 벌어지고 있다

우리는 웹이 명확한 양극화로 향하고 있다고 생각합니다. 한쪽에는 유료 접근 계약, API 파트너십, 라이선스 크롤링을 통해 데이터를 수익화하는 사이트들이 있습니다. 다른 한쪽에는 모든 자동화된 접근을 위협으로 취급하고 점진적으로 공격적인 대응책을 배포하는 사이트들이 있습니다.

데이터 팀에게 이는 수집 비용이 계속 상승할 것임을 의미합니다. 기술을 구축하기가 더 어려워져서가 아니라, 환경이 더 적대적으로 변하기 때문입니다. 책임감 있고 투명한 스크래핑 관행에 투자하는 팀은 계속해서 접근 권한을 유지할 것입니다. 학습 봇처럼 보이는 팀은 갇히고, 오염되고, 차단될 것입니다.

타르핏은 사라지지 않을 것입니다. 귀하의 팀이 고민해야 할 문제는 타르핏을 걱정해야 할지 여부가 아닙니다. 데이터가 데이터베이스에 들어가기 전에 귀하의 인프라가 실제 페이지와 트랩의 차이를 감지할 수 있는지 여부입니다.