Todos os posts

A detecção de bots tornou-se comportamental. A maioria dos scrapers não.

A detecção de bots mudou do bloqueio de IP para TLS fingerprints, sinais de navegador e análise comportamental. A maioria das configurações de scraping está lutando a batalha errada.

Em janeiro, 16 milhões de requests provaram que o bloqueio de IP está morto

Um ataque de scalping atingiu uma grande plataforma de e-commerce em janeiro de 2026. Dezesseis milhões de requests distribuídos por 3,9 milhões de endereços IP únicos. O rate limit por IP não conseguiu contê-lo. O ataque não teve sucesso por causa de um código inteligente. Ele teve sucesso porque o volume massivo de IPs tornou a detecção tradicional inútil (SecurityBoulevard, março de 2026).

Esse incidente provou o que a indústria anti-bot vem dizendo há algum tempo: a reputação de IP sozinha não consegue diferenciar humanos de bots. E se os defensores evoluíram, os scrapers também precisam evoluir.

As três camadas que substituíram o bloqueio de IP

A detecção de bots moderna opera em três camadas. Apenas a primeira envolve o seu IP.

Network fingerprinting. Antes que o seu request chegue ao servidor, o seu pacote TLS "Client Hello" cria uma assinatura (conhecida como JA3 ou JA4) que identifica a biblioteca HTTP que está fazendo o request. A biblioteca requests do Python, o cliente padrão do Go, o fetch do Node.js, cada um produz um fingerprint distinto. Os sistemas anti-bot verificam isso antes de lerem um único header. Se a sua assinatura TLS não corresponder a um navegador real, você será bloqueado no nível da conexão (Reddit r/programming).

Browser fingerprinting. Os sites agora verificam mais de 300 sinais do ambiente do navegador. Renderização em Canvas, saída WebGL, contexto de áudio, fontes instaladas, resolução de tela, fuso horário, informações de GPU. A sua string de User-Agent é o sinal menos interessante da pilha. Cloudflare, Akamai e DataDome coletam esses dados passivamente por meio de desafios de JavaScript executados antes do carregamento da página (ScrapingBee, 2026).

Análise comportamental. Esta é a camada mais recente e a mais difícil de forjar. Os sistemas anti-bot agora rastreiam movimentos do mouse, velocidade de rolagem, padrões de clique, cadência de digitação e o tempo entre interações. Humanos reais não movem o mouse em linhas perfeitamente retas. Eles pausam, passam do limite dos botões, rolam a página de forma errática. Os bots não fazem nada disso, ou fazem tudo de forma perfeita demais (r/webdev, 2026).

A maioria das equipes de scraping está lutando a batalha errada

Aqui está a verdade desconfortável: a maioria das equipes de scraping ainda investe principalmente em infraestrutura de IP. Pools de proxy maiores, IPs residenciais, gateways rotativos. Há um espaço para isso. A reputação de IP ainda importa como um sinal entre muitos.

Mas comprar 10.000 IPs residenciais não ajudará se o seu TLS fingerprint gritar "script Python" ou se o seu navegador headless vazar flags de automação por meio de navigator.webdriver. Você está gastando dinheiro na camada errada.

Um desenvolvedor que construiu 34 scrapers em produção escreveu sobre esse problema (Dev|Journal, março de 2026): a diferença entre o scraping de nível de tutorial e o que funciona em produção é definida por sistemas anti-bot que analisam TLS fingerprints e movimentos do mouse, não seletores DOM. Os tutoriais ensinam você a fazer o parse de HTML. A produção ensina você a sobreviver à detecção.

E está piorando. O relatório State of Web Scraping 2026 da Browserless descobriu que navegadores headless padrão são sinalizados com mais frequência do que navegadores reais porque os sistemas anti-bot catalogaram as diferenças específicas de fingerprint entre o Chrome headless e o Chrome comum. Essa lacuna não está diminuindo.

Se o seu scraper continua quebrando e você está olhando apenas para a rotação de proxy, você pode estar corrigindo a coisa totalmente errada.

O fator Cloudflare

A Cloudflare merece menção especial porque está em ambos os lados dessa mudança.

O produto Bot Management deles executa análise comportamental em cada request, pontuando os visitantes em uma escala de 1 a 99 com base em dezenas de sinais. O Turnstile (o substituto invisível de CAPTCHA deles) ajusta dinamicamente a dificuldade do desafio com base em quão humano o visitante parece (Cloudflare docs).

Ao mesmo tempo, a Cloudflare lançou sua própria infraestrutura de crawling de IA. A comunidade notou a ironia (Reddit r/cybersecurity).

O que isso significa na prática: sites protegidos pela Cloudflare são os mais difíceis de fazer scraping em 2026, e cerca de 20% de todos os sites estão atrás de sua rede. Se a sua estratégia de scraping não leva em conta a detecção comportamental, você perdeu um quinto da web acessível.

O que realmente funciona em 2026

Os scrapers que têm sucesso compartilham três características.

Primeiro, eles correspondem aos TLS fingerprints de navegadores reais. Ferramentas como o curl-impersonate replicam a assinatura TLS exata do Chrome ou do Firefox, evitando a detecção antes que ela comece. Nenhuma quantidade de spoofing de header corrige um hash JA3 incompatível.

Segundo, eles executam ambientes de navegador reais (ou convincentemente reais). Não o Chrome headless com configurações padrão. Instâncias reais de navegador com fingerprints consistentes que correspondem ao User-Agent que afirmam ser.

Terceiro, para sites protegidos, eles adicionam ruído comportamental semelhante ao humano. Delays aleatórios não são suficientes. O tempo entre as ações precisa seguir distribuições realistas, e os caminhos de movimento do mouse precisam de curvas e hesitações que pareçam orgânicas.

Portanto, a arquitetura mudou. Não se trata de ter mais IPs. Trata-se de tornar cada request indistinguível de uma pessoa real navegando no Chrome.

A corrida armamentista da detecção está se acelerando

Os fornecedores de soluções anti-bot começaram a compartilhar inteligência de ameaças em tempo real com toda a sua base de clientes. Quando um site sinaliza um novo padrão de bot, todos os outros sites da rede aprendem em poucos minutos (SecurityBoulevard, março de 2026). Essa é uma mudança fundamental em relação ao modelo antigo, no qual as defesas de cada site operavam de forma independente.

Acreditamos que isso significa que o custo de construir a própria infraestrutura de scraping continuará subindo. Cada novo sinal de detecção exige tempo de engenharia para ser combatido, e o ciclo está se acelerando. Equipes que lidam com a detecção no nível da infraestrutura (smart proxy routing, browser fingerprinting, correspondência de TLS) superarão aquelas que continuam apenas jogando IPs contra o problema.

A pergunta não é se você precisa de mais proxies. É se os seus requests parecem humanos antes mesmo de chegarem ao servidor de destino.