Tarpits de Web Scraping: Quem Realmente é Pego

Sites estão preparando armadilhas para crawlers de IA

Uma ferramenta chamada Nepenthes viralizou no início de 2025. Ela gera labirintos infinitos de páginas web falsas, cada uma linkando para mais páginas falsas, projetadas para prender crawlers em um loop do qual não conseguem escapar. O texto nessas páginas? Conteúdo sem sentido gerado algoritmicamente, criado para poluir conjuntos de dados de treinamento de IA com lixo.

O Nepenthes não está sozinho. Projetos como o Locaine e uma lista crescente de "tarpits" de código aberto surgiram no GitHub, cada um com a mesma proposta: se as empresas de IA não respeitarem o robots.txt, os proprietários de sites vão revidar com veneno.

A motivação faz sentido. Um estudo acadêmico no arXiv descobriu que o bloqueio de IA entre sites confiáveis saltou de 23% em setembro de 2023 para quase 60% em maio de 2025. A análise da BuzzStream mostrou que 79% dos principais sites de notícias agora bloqueiam bots de treinamento de IA via robots.txt. E o Cloudflare Radar relatou que 75% do tráfego web relacionado à IA em meados de 2025 foi gerado para fins de treinamento, não para busca ou inferência.

Mas os tarpits não verificam credenciais. Eles não perguntam por que você está fazendo o crawling. Eles prendem qualquer coisa que pareça automatizada.

Quem realmente está sendo pego

Os alvos pretendidos são óbvios: GPTBot, ClaudeBot, os crawlers de empresas de IA que coletam a web aberta para dados de treinamento. O problema é que os tarpits não conseguem diferenciar o crawler da OpenAI do seu script de monitoramento de preços.

Os tarpits detectam padrões de request automatizados. Se o seu scraper segue links sistematicamente, acessa páginas em intervalos constantes ou pula a execução de JavaScript (a forma como a maioria dos crawlers de treinamento de IA opera), ele parece um alvo. A armadilha não se importa se você é uma equipe de e-commerce de 10 pessoas monitorando os preços dos concorrentes. Ela vê tráfego com comportamento de bot e começa a servir páginas falsas.

Isso não é apenas teórico. Uma pesquisa da Rutgers e da Wharton descobriu que os sites que bloqueiam crawlers de IA viram um declínio de 23,1% no tráfego total e uma queda de 13,9% no tráfego humano. A postura agressiva de bloqueio não apenas impede os scrapers de IA. Ela também prejudica a própria visibilidade do site.

E os tarpits vão além: eles desperdiçam ativamente o processamento, armazenamento e largura de banda de um crawler, enquanto o alimentam com dados que degradam qualquer modelo ou banco de dados que ele esteja construindo.

A escada de escalada

O robots.txt sempre foi um acordo de cavalheiros. Funcionava quando todos seguiam as regras. Quando as grandes empresas de IA começaram a ignorá-lo (ou a encontrar interpretações criativas de "crawling para busca" versus "crawling para treinamento"), os proprietários de sites escalaram as medidas.

O padrão é o seguinte:

Bloqueios de robots.txt: o pedido educado
Filtragem de User-Agent: bloqueando assinaturas conhecidas de crawlers de IA
Detecção comportamental: capturando crawlers desconhecidos por seus padrões de request
Tarpits: contramedidas ativas que desperdiçam recursos e envenenam dados

Cada etapa captura mais ameaças. Cada etapa também captura mais tráfego legítimo. Na etapa quatro, você está tratando todo acesso automatizado como hostil. Assim, um scraper que coleta preços de produtos publicamente disponíveis para um serviço de comparação cai nas mesmas armadilhas que o GPTBot coletando dados sem permissão.

O que as equipes de dados devem fazer agora

Se você realiza coleta de dados em qualquer escala, os tarpits mudam as regras. Várias coisas importam mais do que antes.

Respeite o robots.txt, sempre. Isso parece básico, mas agora é o requisito mínimo. Os sites usam o robots.txt como um filtro de primeira passagem. Ignore-o e você estará se colocando na mesma categoria que os bots de treinamento de IA que iniciaram toda essa reação com tarpits.

Não pareça um crawler de treinamento. Os crawlers de treinamento de IA têm assinaturas previsíveis: eles seguem todos os links, solicitam páginas em lote, pulam o JavaScript e mantêm intervalos regulares. Se o seu scraper fizer o mesmo, a detecção comportamental irá sinalizá-lo. Varie o seu tempo. Carregue apenas o que for necessário. Execute JavaScript quando o site exigir. Escrevemos sobre o que faz com que os scrapers sejam bloqueados em Por que seu Web Scraper continua quebrando.

Valide os dados recebidos. Os tarpits servem lixo com aparência plausível. Se você não estiver verificando as responses em seu pipeline, poderá estar armazenando texto gerado por cadeias de Markov como descrições reais de produtos. Construa a validação como uma etapa central, não como uma reflexão tardia.

Invista na sua infraestrutura de request. O manual antigo (rotacionar IPs, resolver CAPTCHAs, tentar novamente em caso de falha) não é suficiente. Os sistemas anti-bot modernos analisam fingerprints de TLS, comportamento do navegador e padrões de sessão. O roteamento inteligente de proxy ajuda, mas a mudança real é da detecção em nível de IP para o nível de comportamento. Se você está fazendo scraping de sites pesados em JavaScript, a coleta baseada em navegador é cada vez mais a única abordagem confiável.

A lacuna de acesso está aumentando

Acreditamos que a web está caminhando para uma divisão clara. De um lado: sites que monetizam dados por meio de acordos de acesso pago, parcerias de API e crawling licenciado. Do outro: sites que tratam todo acesso automatizado como uma ameaça e implantam contramedidas progressivamente agressivas.

Para as equipes de dados, isso significa que os custos de coleta continuarão subindo. Não porque a tecnologia seja mais difícil de construir, mas porque o ambiente está mais hostil. As equipes que investem em práticas de scraping responsáveis e transparentes manterão seu acesso. Aquelas que se parecem com bots de treinamento serão presas, envenenadas e bloqueadas.

Os tarpits não vão desaparecer. A pergunta para a sua equipe não é se deve se preocupar com eles. É se a sua infraestrutura consegue identificar a diferença entre uma página real e uma armadilha antes que esses dados cheguem ao seu banco de dados.