Tarpits de Web Scraping : qui se fait vraiment piéger

Les sites web tendent des pièges aux crawlers d'IA

Un outil appelé Nepenthes est devenu viral début 2025. Il génère des labyrinthes infinis de fausses pages web, chacune pointant vers d'autres fausses pages, conçues pour piéger les crawlers dans une boucle infinie. Le texte de ces pages ? Du charabia généré par algorithme, conçu pour polluer les jeux de données d'entraînement d'IA avec des données poubelles.

Nepenthes n'est pas seul. Des projets comme Locaine et une liste croissante de "tarpits" open-source ont surgi sur GitHub, chacun avec la même promesse : si les entreprises d'IA ne respectent pas le fichier robots.txt, les propriétaires de sites répliqueront avec du poison.

Cette motivation est logique. Une étude académique sur arXiv a révélé que le blocage de l'IA par les sites de confiance est passé de 23 % en septembre 2023 à près de 60 % en mai 2025. L'analyse de BuzzStream montre que 79 % des principaux sites d'actualités bloquent désormais les bots d'entraînement d'IA via le fichier robots.txt. De plus, Cloudflare Radar a signalé que 75 % du trafic web lié à l'IA au milieu de l'année 2025 était généré à des fins d'entraînement, et non pour la recherche ou l'inférence.

Mais les tarpits ne vérifient pas les identifiants. Ils ne demandent pas pourquoi vous crawlez. Ils piègent tout ce qui semble automatisé.

Qui se fait réellement piéger

Les cibles visées sont évidentes : GPTBot, ClaudeBot, les crawlers des entreprises d'IA qui collectent le web ouvert pour leurs données d'entraînement. Le problème est que les tarpits ne font pas la différence entre le crawler d'OpenAI et votre script de surveillance des prix.

Les tarpits détectent les schémas de request automatisés. Si votre scraper suit les liens de manière systématique, accède aux pages à intervalles réguliers ou ignore l'exécution JavaScript (comme le font la plupart des crawlers d'entraînement d'IA), il ressemble à une cible. Le piège se moque que vous soyez une équipe e-commerce de 10 personnes qui surveille les prix des concurrents. Il voit un trafic de type bot et commence à renvoyer de fausses pages.

Ce n'est pas seulement théorique. Une recherche de Rutgers et Wharton a révélé que les sites bloquant les crawlers d'IA ont enregistré une baisse de 23,1 % de leur trafic total et une chute de 13,9 % de leur trafic humain. Cette posture de blocage agressive ne stoppe pas seulement les scrapers d'IA. Elle nuit également à la visibilité du site lui-même.

Et les tarpits vont plus loin : ils gaspillent activement la puissance de calcul, le stockage et la bande passante d'un crawler tout en lui fournissant des données qui dégradent le modèle ou la base de données en cours de construction.

L'escalade des mesures

Le fichier robots.txt a toujours été un accord de principe. Cela fonctionnait quand tout le monde respectait les règles. Lorsque les grandes entreprises d'IA ont commencé à l'ignorer (ou à trouver des interprétations créatives de la différence entre "crawler pour la recherche" et "crawler pour l'entraînement"), les propriétaires de sites ont intensifié leurs mesures.

Le schéma ressemble à ceci :

Blocages via robots.txt : la demande polie
Filtrage par User-Agent : blocage des signatures de crawlers d'IA connues
Détection comportementale : capture des crawlers inconnus grâce à leurs schémas de request
Tarpits : contre-mesures actives qui gaspillent les ressources et empoisonnent les données

Chaque étape intercepte davantage de menaces. Chaque étape intercepte également plus de trafic légitime. À la quatrième étape, vous traitez tout accès automatisé comme hostile. Ainsi, un scraper qui collecte des prix de produits publiquement disponibles pour un comparateur se heurte aux mêmes pièges que GPTBot collectant des données sans autorisation.

Ce que les équipes de données doivent faire maintenant

Si vous gérez de la collecte de données à n'importe quelle échelle, les tarpits changent la donne. Plusieurs aspects sont devenus bien plus importants qu'auparavant.

Respectez toujours le fichier robots.txt. Cela semble basique, mais c'est désormais le strict minimum. Les sites utilisent le fichier robots.txt comme premier filtre. Ignorez-le, et vous vous placerez dans la même catégorie que les bots d'entraînement d'IA qui ont déclenché cette riposte par tarpits.

Ne ressemblez pas à un crawler d'entraînement. Les crawlers d'entraînement d'IA ont des signatures prévisibles : ils suivent tous les liens, demandent des pages en masse, ignorent le JavaScript et maintiennent des intervalles réguliers. Si votre scraper fait de même, la détection comportementale le signalera. Variez vos timings. Ne chargez que ce dont vous avez besoin. Exécutez le JavaScript lorsque le site l'exige. Nous avons détaillé les causes de blocage des scrapers dans Pourquoi votre scraper web ne cesse de casser.

Valisez les données entrantes. Les tarpits fournissent des données poubelles à l'apparence plausible. Si vous ne vérifiez pas les responses dans votre pipeline, vous risquez de stocker du texte généré par des chaînes de Markov comme de vraies descriptions de produits. Intégrez la validation comme une étape essentielle, et non après coup.

Investissez dans votre infrastructure de request. L'ancienne méthode (rotation d'IP, résolution de CAPTCHAs, tentatives en cas d'échec) ne suffit plus. Les systèmes anti-bots modernes analysent les empreintes TLS, le comportement du navigateur et les schémas de session. Le Smart proxy routing aide, mais le véritable changement réside dans le passage d'une détection basée sur l'IP à une détection basée sur le comportement. Si vous scrapez des sites riches en JavaScript, la collecte basée sur un navigateur est de plus en plus la seule approche fiable.

Le fossé de l'accès se creuse

Nous pensons que le web se dirige vers une division claire. D'un côté : les sites qui monétisent leurs données via des accords d'accès payants, des partenariats API et du crawling sous licence. De l'autre : les sites qui traitent tout accès automatisé comme une menace et déploient des contre-mesures de plus en plus agressives.

Pour les équipes de données, cela signifie que les coûts de collecte vont continuer à augmenter. Non pas parce que la technologie est plus difficile à concevoir, mais parce que l'environnement est plus hostile. Les équipes qui investissent dans des pratiques de scraping responsables et transparentes conserveront leur accès. Celles qui ressemblent à des bots d'entraînement se feront piéger, empoisonner et bloquer.

Les tarpits ne vont pas disparaître. La question pour votre équipe n'est pas de savoir s'il faut s'en inquiéter. Elle est de savoir si votre infrastructure peut faire la différence entre une vraie page et un piège avant que ces données n'atteignent votre base de données.