O Handshake TLS é o Piso da Detecção de Bots
98,6%.
Essa é a precisão de classificação que um modelo CatBoost alcançou usando apenas recursos do JA4. Sem headers. Sem IPs. Sem comportamento. Apenas o formato do handshake TLS. O artigo do arXiv foi publicado em fevereiro de 2026, e o resultado não é uma exceção. Cloudflare, AWS, VirusTotal e Akamai executam JA4 (ou seu predecessor JA3) em produção. Se você está fazendo scraping em 2026 com um cliente HTTP comum, o veredito foi dado antes de seu request chegar à camada de aplicação.
Esta é a parte que os tutoriais de detecção de bots ignoram. A maioria dos posts sobre evasão de anti-bots ainda gira em torno de rotação de User-Agent, cookies e CAPTCHAs. Essas são as camadas fáceis. Mas a camada TLS é aquela que você não consegue enganar com um header.
O que o JA4 realmente vê
O JA4 é um fingerprint do ClientHello do TLS. Ele codifica o protocolo (TCP ou QUIC), a versão do TLS, a presença de SNI, as cipher suites ordenadas, extensões, algoritmos de assinatura e ALPN. O resultado é uma string compacta como t13d1516h2_8daaf6152771_e5627906d626. Dois clientes que afirmam ser o mesmo navegador produzirão o mesmo hash JA4. Um script Python requests que afirma ser o Chrome produz um JA4 que não existe em nenhum outro lugar do mundo, exceto em scrapers.
A família JA4 (desenvolvida pela FoxIO, o mesmo grupo por trás do JA3) resolveu a maior fraqueza do JA3: a permutação de extensões, que o Chromium introduziu em 2023 para quebrar o fingerprinting ingênuo. O JA4 ordena as extensões e as conta, de modo que a randomização não ajuda. Não há uma saída fácil.
A Akamai divulgou uma precisão de classificação de bots de 92% a 98% por meio de análise cross-layer. A parte cross-layer importa. O TLS sozinho é o sinal dominante, mas combiná-lo com a ordenação de frames HTTP/2, a ordem dos headers e o tempo de request reduz a taxa de falsos positivos para muito abaixo do que a maioria dos scrapers pode tolerar.
A reviravolta pós-quântica
Esta é a parte que ninguém previu. Em 31 de janeiro de 2026, a Akamai tornou a troca de chaves pós-quântica o padrão para todas as conexões. No início de 2026, 57,4% das conexões reais iniciadas por navegadores incluem o compartilhamento de chave X25519MLKEM768. A parcela do Chrome compatível com PQ está em torno de 93%. O Firefox 132 está em 85%. O Safari está implementando.
O compartilhamento de chave PQ é grande. São 1.124 bytes contra 36 bytes do X25519 clássico. O ClientHello cresceu de 300 a 500 bytes para mais de 1.400. Esse crescimento aparece no JA4, na captura de pacotes e na observação passiva no WAF.
Se o seu cliente de scraping não incluir o compartilhamento de chave PQ, você estará fazendo uma afirmação que nenhum Chrome ou Firefox atual faria. Duas CVEs do primeiro trimestre de 2026 sinalizam exatamente essa incompatibilidade: a CVE-2026-26995 (extensão de preenchimento) carrega de 25% a 50% de probabilidade de detecção por request, e a CVE-2026-27017 (incompatibilidade de ECH e GREASE) fica em torno de 50%. Combinada ao longo de uma sessão, a exposição sobe para quase certeza.
Este é um problema de 12 meses se transformando em um problema de 3 meses. A maioria das stacks de scraping de código aberto ainda não oferece suporte a TLS compatível com PQ. As que oferecem estão semanas atrás do Chromium real.
Por que proxies não resolvem isso
Há uma história confortante circulando de que pools de proxies maiores resolvem a detecção moderna de bots. Não resolvem. O incidente de scalping de janeiro de 2026 coberto pelo Security Boulevard usou 16 milhões de requests em 3,9 milhões de IPs exclusivos. O bloqueio por IP foi inútil. A defesa que funcionou foi, em sua maioria, TLS e fingerprinting comportamental.
A economia dos proxies residenciais também quebrou neste trimestre. O Help Net Security relatou em abril de 2026 que a interrupção da rede IPIDEA em janeiro reduziu a capacidade residencial do setor em cerca de 40% da noite para o dia. A disputa de patentes entre a Bright Data e a Oxylabs (a Suprema Corte rejeitou a petição da Bright Data em 23 de fevereiro de 2026, com o julgamento marcado para 18 de maio) é um detalhe menor perto desse impacto na capacidade. Compradores que buscam IPs residenciais como defesa contra fingerprinting estão pagando mais por uma resposta com a qual o WAF não se importa.
Os proxies ainda importam, só não pelo motivo que a maioria das pessoas pensa. A distribuição geográfica e o tipo de ISP moldam as decisões de roteamento e os perfis de rate limit. Eles não ajudam você a sobreviver ao handshake.
O que isso significa para as equipes de dados
Três coisas mudam se você estiver construindo ou comprando infraestrutura de scraping em 2026.
Primeiro, a stack TLS agora é um requisito obrigatório. Qualquer cliente que não personifique o handshake TLS de um navegador real (compartilhamento de chave PQ, ordenação de extensões, ALPN, algoritmos de assinatura) produz um fingerprint que o classifica como bot com alta confiança. Envolver requests do Python em headers melhores não resolve nada. O transporte é o que entrega.
Segundo, a detecção de navegadores headless piorou, não melhorou. O State of Web Scraping 2026 da Browserless relata que a diferença entre o Chromium headless e o convencional está aumentando. Os fornecedores de soluções anti-bot catalogaram as diferenças de fingerprint e compartilham inteligência de ameaças entre os sites dos clientes em tempo quase real. Uma instância headless que funcionava em dezembro pode ser classificada como bot em maio. Os sinais comportamentais se acumulam sobre o TLS, e ambos são alvos em constante movimento.
Terceiro, o cálculo de desenvolver versus comprar mudou. Manter um fingerprint TLS que corresponda a um alvo em movimento (o Chromium lança atualizações de PQ a cada poucas semanas, a ordem das extensões muda entre versões secundárias, as preferências de cipher suite mudam) agora é um trabalho de tempo integral. Equipes que dedicavam 20% de um engenheiro para a manutenção de scrapers em 2024 estão gastando mais de metade de um funcionário em 2026. Já escrevemos antes sobre por que os scrapers continuam quebrando. Em 2026, a resposta é mais frequentemente "TLS" do que "DOM".
O scraper mais barato é aquele que não é classificado
A previsão interessante não é se os fornecedores de anti-bots continuarão elevando o nível. Eles vão. A previsão interessante é quais ferramentas de scraping sobreviverão a um mercado onde 98% de precisão é o patamar mínimo de detecção.
A maioria não sobreviverá. Mas as que sobreviverem tratarão o handshake TLS como parte do request, não como um detalhe de transporte. E os compradores começarão a fazer aos fornecedores uma pergunta que não estava na lista de avaliação doze meses atrás: qual fingerprint TLS você entrega e com que rapidez você o atualiza?
O handshake resolve a questão antes mesmo que o request tenha a chance de se apresentar.