Tarpits de web scraping: quiénes caen realmente

Los sitios web están tendiendo trampas a los crawlers de IA

Una herramienta llamada Nepenthes se volvió viral a principios de 2025. Genera laberintos infinitos de páginas web falsas, cada una enlazando a más páginas falsas, diseñadas para atrapar a los crawlers en un bucle del que no pueden escapar. ¿El texto de esas páginas? Jerga generada algorítmicamente, diseñada para contaminar los conjuntos de datos de entrenamiento de IA con basura.

Nepenthes no está sola. Proyectos como Locaine y una lista creciente de "tarpits" de código abierto han aparecido en GitHub, cada uno con la misma propuesta: si las empresas de IA no respetan robots.txt, los propietarios de los sitios contraatacarán con veneno.

La motivación tiene sentido. Un estudio académico en arXiv descubrió que el bloqueo de IA entre sitios de buena reputación aumentó del 23% en septiembre de 2023 a casi el 60% en mayo de 2025. El análisis de BuzzStream mostró que el 79% de los principales sitios de noticias ahora bloquean los bots de entrenamiento de IA a través de robots.txt. Y Cloudflare Radar informó que el 75% del tráfico web relacionado con IA a mediados de 2025 se generó con fines de entrenamiento, no para búsquedas o inferencias.

But tarpits don't check credentials. They don't ask why you're crawling. They trap anything that looks automated.

Quiénes están cayendo realmente en la trampa

Los objetivos previstos son obvios: GPTBot, ClaudeBot, los crawlers de las empresas de IA que recopilan la web abierta para obtener datos de entrenamiento. El problema es que los tarpits no pueden distinguir entre el crawler de OpenAI y tu script de monitoreo de precios.

Los tarpits detectan patrones de request automatizados. Si tu scraper sigue enlaces de forma sistemática, accede a las páginas a intervalos constantes o se salta la ejecución de JavaScript (la forma en que operan la mayoría de los crawlers de entrenamiento de IA), parecerá un objetivo. A la trampa no le importa que seas un equipo de comercio electrónico de 10 personas que rastrea los precios de la competencia. Detecta tráfico con forma de bot y comienza a servir páginas falsas.

Esto no es solo teórico. Una investigación de Rutgers y Wharton descubrió que los sitios que bloqueaban los crawlers de IA experimentaron una disminución del 23.1% en el tráfico total y una caída del 13.9% en el tráfico humano. La postura agresiva de bloqueo no solo detiene a los scrapers de IA. También perjudica la propia visibilidad del sitio.

Y los tarpits van más allá: desperdician activamente el cómputo, el almacenamiento y el ancho de banda de un crawler mientras lo alimentan con datos que degradan cualquier modelo o base de datos que esté construyendo.

La escalera de escalada

Robots.txt siempre fue un acuerdo de caballeros. Funcionaba cuando todos seguían las reglas. Cuando las principales empresas de IA empezaron a ignorarlo (o a buscar interpretaciones creativas de "crawling para búsqueda" frente a "crawling para entrenamiento"), los propietarios de los sitios aumentaron la presión.

Bloqueos por robots.txt: la solicitud educada
Filtrado por User-Agent: bloqueo de firmas conocidas de crawlers de IA
Detección de comportamiento: capturar crawlers desconocidos por sus patrones de request
Tarpits: contramedidas activas que desperdician recursos y envenenan los datos

Cada paso detecta más amenazas. Cada paso también atrapa más tráfico legítimo. En el paso cuatro, ya estás tratando todo acceso automatizado como hostil. Así, un scraper que recopila precios de productos disponibles públicamente para un servicio de comparación cae en las mismas trampas que GPTBot recopilando datos sin permiso.

Qué deben hacer ahora los equipos de datos

Si ejecutas la recopilación de datos a cualquier escala, los tarpits cambian las reglas del juego. Varias cosas importan más que antes.

Respeta siempre robots.txt. Esto suena básico, pero ahora es el requisito mínimo. Los sitios usan robots.txt como un filtro de primera pasada. Ignóralo y te estarás colocando en la misma categoría que los bots de entrenamiento de IA que iniciaron toda esta respuesta de tarpits.

No parezcas un crawler de entrenamiento. Los crawlers de entrenamiento de IA tienen firmas predecibles: siguen cada enlace, solicitan páginas en masa, omiten JavaScript y mantienen intervalos regulares. Si tu scraper hace lo mismo, la detección de comportamiento lo marcará. Varía tus tiempos. Carga solo lo que necesites. Ejecuta JavaScript cuando el sitio lo requiera. Escribimos sobre lo que causa que los scrapers sean bloqueados en Por qué tu web scraper se sigue rompiendo.

Valida los datos entrantes. Los tarpits sirven basura que parece plausible. Si no estás comprobando las responses en tu pipeline, podrías estar almacenando texto generado por cadenas de Markov como descripciones de productos reales. Convierte la validación en un paso fundamental, no en algo secundario.

Invierte en tu infraestructura de request. El antiguo manual de estrategias (rotar IPs, resolver CAPTCHAs, reintentar en caso de fallo) ya no es suficiente. Los sistemas anti-bot modernos analizan huellas TLS, el comportamiento del navegador y los patrones de sesión. El enrutamiento inteligente de proxies ayuda, pero el cambio real es de la detección a nivel de IP a la detección a nivel de comportamiento. Si estás haciendo scraping en sitios con mucho JavaScript, la recopilación basada en navegador es cada vez más el único enfoque confiable.

La brecha de acceso se está ampliando

Creemos que la web se dirige hacia una división clara. Por un lado: sitios que monetizan datos a través de acuerdos de acceso de pago, asociaciones de API y crawling con licencia. Por el otro: sitios que tratan todo acceso automatizado como una amenaza y despliegan contramedidas progresivamente agresivas.

Para los equipos de datos, esto significa que los costos de recopilación seguirán aumentando. No porque la tecnología sea más difícil de construir, sino porque el entorno es más hostil. Los equipos que inviertan en prácticas de scraping responsables y transparentes mantendrán su acceso. Los que parezcan bots de entrenamiento quedarán atrapados, envenenados y bloqueados.

Los tarpits no van a desaparecer. La pregunta para tu equipo no es si debes preocuparte por ellos. Es si tu infraestructura puede detectar la diferencia entre una página real y una trampa antes de que esos datos lleguen a tu base de datos.