Todos los artículos

JA4 y TLS post-cuántico rompieron el scraper básico

Tu header User-Agent ya no importa. Las huellas JA4 clasifican bots con una precisión del 98.6% antes de que se lean los headers. Esto es lo que cambió en 2026.

El handshake TLS es el nivel mínimo de detección de bots

98.6%.

Esa es la precisión de clasificación que alcanzó un modelo CatBoost usando solo características de JA4. Sin headers. Sin IPs. Sin comportamiento. Solo la forma del handshake TLS. El artículo de arXiv se publicó en febrero de 2026, y el resultado no es un caso aislado. Cloudflare, AWS, VirusTotal y Akamai ejecutan JA4 (o su primo anterior JA3) en producción. Si estás haciendo scraping en 2026 con un cliente HTTP básico, el veredicto se emitió antes de que tu request llegara a la capa de aplicación.

Esta es la parte que los tutoriales de detección de bots omiten. La mayoría de las publicaciones sobre evasión de sistemas anti-bots todavía giran en torno a la rotación de User-Agent, cookies y CAPTCHAs. Esas son las capas fáciles. Pero la capa TLS es la que no puedes engañar con un header.

Lo que JA4 ve realmente

JA4 es una huella digital del ClientHello de TLS. Codifica el protocolo (TCP o QUIC), la versión de TLS, la presencia de SNI, las cipher suites ordenadas, las extensiones, los algoritmos de firma y ALPN. El resultado es una cadena compacta como t13d1516h2_8daaf6152771_e5627906d626. Dos clientes que afirman ser el mismo navegador producirán el mismo hash JA4. Un script de Python requests que afirma ser Chrome produce un JA4 que no existe en ningún lugar del mundo excepto en los scrapers.

La familia JA4 (desarrollada por FoxIO, el mismo grupo detrás de JA3) abordó la mayor debilidad de JA3: la permutación de extensiones, que Chromium introdujo en 2023 para romper el fingerprinting básico. JA4 ordena las extensiones y las cuenta, por lo que la aleatorización no ayuda. No hay una salida fácil.

Akamai reveló una precisión de clasificación de bots del 92-98% mediante análisis entre capas (cross-layer). La parte de las capas cruzadas importa. TLS por sí solo es la señal dominante, pero combinarlo con el orden de los frames de HTTP/2, el orden de los headers y el tiempo de los requests reduce la tasa de falsos positivos muy por debajo de lo que la mayoría de los scrapers pueden tolerar.

El giro post-cuántico

Esta es la parte que nadie vio venir. El 31 de enero de 2026, Akamai estableció el intercambio de claves post-cuántico por defecto para todas las conexiones. Para principios de 2026, el 57.4% de las conexiones reales iniciadas por navegadores incluyen el intercambio de claves X25519MLKEM768. La cuota de Chrome con capacidad PQ ronda el 93%. Firefox 132 está en el 85%. Safari se está implementando.

El intercambio de claves PQ es grande. 1,124 bytes frente a los 36 bytes del X25519 clásico. El ClientHello creció de 300-500 bytes a más de 1,400. Ese crecimiento se muestra en JA4, en la captura de paquetes y en la observación pasiva en el WAF.

Si tu cliente de scraping no incluye el intercambio de claves PQ, estás afirmando algo que ningún Chrome o Firefox actual haría. Dos CVE del primer trimestre de 2026 señalan exactamente esta discrepancia: CVE-2026-26995 (extensión de padding) conlleva una probabilidad de detección del 25-50% por request, y CVE-2026-27017 (discrepancia de ECH y GREASE) ronda el 50%. Combinado a lo largo de una sesión, la exposición aumenta hacia la certeza casi absoluta.

Este es un problema de 12 meses que se está convirtiendo en un problema de 3 meses. La mayoría de las tecnologías de scraping de código abierto aún no han implementado TLS compatible con PQ. Las que lo han hecho están semanas por detrás del Chromium real.

Por qué los proxies no solucionan esto

Existe una historia reconfortante de que los pools de proxies más grandes resuelven la detección de bots moderna. No es así. El incidente de scalping de enero de 2026 cubierto por Security Boulevard utilizó 16 millones de requests en 3.9 millones de IPs únicas. El bloqueo por IP fue inútil. La defensa que funcionó fue, en su mayoría, TLS y fingerprinting de comportamiento.

La economía de los proxies residenciales también se desplomó este trimestre. Help Net Security informó en abril de 2026 que la interrupción de la red IPIDEA en enero redujo la capacidad residencial de la industria en aproximadamente un 40% de la noche a la mañana. La batalla de patentes entre Bright Data y Oxylabs (la Corte Suprema rechazó la petición de Bright Data el 23 de febrero de 2026, con el juicio fijado para el 18 de mayo) es un asunto secundario al lado de ese golpe a la capacidad. Los compradores que buscan IPs residenciales como defensa contra el fingerprinting están pagando más por una solución que al WAF no le importa.

Los proxies siguen importando, pero no por la razón que la mayoría de la gente piensa. La distribución geográfica y el tipo de ISP definen las decisiones de enrutamiento y los perfiles de rate limit. No te ayudan a sobrevivir al handshake.

Qué significa esto para los equipos de datos

Tres cosas cambian si estás construyendo o comprando infraestructura de scraping en 2026.

Primero, el stack de TLS ahora es un requisito indispensable. Cualquier cliente que no imite el handshake TLS de un navegador real (intercambio de claves PQ, orden de extensiones, ALPN, algoritmos de firma) produce una huella que se clasifica como bot con alta confianza. Envolver requests de Python en mejores headers no resuelve nada. El transporte es lo que te delata.

Segundo, la detección de navegadores headless empeoró, no mejoró. El informe State of Web Scraping 2026 de Browserless señala que la brecha entre Chromium headless y con interfaz gráfica (headed) se está ampliando. Los proveedores de soluciones anti-bots han catalogado las diferencias de huellas y comparten inteligencia de amenazas entre los sitios de sus clientes casi en tiempo real. Una instancia headless que funcionaba en diciembre puede clasificarse como bot en mayo. Las señales de comportamiento se acumulan sobre TLS, y ambas son objetivos en constante movimiento.

Tercero, el cálculo de desarrollar frente a comprar (build-vs-buy) cambió. Mantener una huella de TLS que coincida con un objetivo en constante movimiento (Chromium lanza actualizaciones de PQ cada pocas semanas, el orden de las extensiones cambia entre versiones menores, las preferencias de cipher suites varían) es ahora un trabajo de tiempo completo. Los equipos que dedicaban el 20% de un ingeniero al mantenimiento de scrapers en 2024 están gastando más de la mitad de un puesto de trabajo en 2026. Ya hemos escrito antes sobre por qué los scrapers se siguen rompiendo. En 2026, la respuesta es más a menudo "TLS" than "DOM".

El scraper más barato es el que no resulta clasificado

La predicción interesante no es si los proveedores de soluciones anti-bots seguirán subiendo la barra. Lo harán. La predicción interesante es qué herramientas de scraping sobrevivirán en un mercado donde una precisión del 98% es el estándar mínimo de detección.

La mayoría no lo hará. Pero las que lo logren tratarán el handshake TLS como parte del request, no como un detalle de transporte. Y los compradores comenzarán a hacer a los proveedores una pregunta que no estaba en la lista de evaluación hace doce meses: ¿qué huella de TLS ofrecen y qué tan rápido la actualizan?

El handshake lo resuelve antes de que el request tenga la oportunidad de presentar su caso.