La fin du libre-service pour les données d'entraînement de l'IA
À la mi-2025, 75 % du trafic web lié à l'IA concernait la collecte de données d'entraînement (Cloudflare Radar via Bright Data, 2025). Pas l'inférence. Pas la recherche. L'entraînement. Des crawlers récupérant des pages pour alimenter le modèle suivant.
Cette époque touche à sa fin.
Trois facteurs ont convergé ces six derniers mois. Les exigences de transparence de l'EU AI Act sont passées de l'état de projet à celui de règles applicables. Les sites ont commencé à bloquer massivement les crawlers d'IA : 60 % des domaines de confiance fin 2025, contre 23 % en septembre 2023 (Ars Technica, 2025). Enfin, les acheteurs de données d'entraînement ont commencé à poser de nouvelles questions sur leur provenance.
Si vous développez un produit qui utilise des données scrapées pour entraîner des modèles, vous faites face à un problème que la plupart des équipes n'ont pas encore budgétisé.
Ce que l'EU AI Act exige réellement
Le déploiement de 2026 introduit des exigences de transparence pour les sources de données d'entraînement d'IA (Scalevise summary, 2026). Les fournisseurs de modèles d'IA à usage général doivent publier des résumés de leur contenu. Les auteurs et les titulaires de droits peuvent exercer un droit d'opposition (opt-out), et cet opt-out doit être respecté au niveau de la collecte des données, et non lors de l'entraînement du modèle (où il est déjà trop tard).
En pratique, trois éléments apparaissent désormais sur les listes de contrôle d'achat :
- Des registres publics indiquant quels sites ont été crawlés, quand, et avec quelles autorisations
- Des mécanismes pour respecter le fichier robots.txt et les signaux explicites d'opt-out
- Une traçabilité des données (data lineage) capable de résister à un audit dans deux ans
Mais voici le piège : impossible de greffer la conformité sur un pipeline qui ignore ce qu'il a récupéré et d'où cela provient. Les équipes qui ont développé le scraping comme un projet secondaire vont découvrir que "projet secondaire" et "prêt pour un audit" sont mutuellement exclusifs.
En clair : la sélection des fournisseurs inclut désormais la question suivante : "votre partenaire de collecte de données peut-il fournir une piste d'audit propre ?". Cette question ne figurait pas sur la plupart des listes de contrôle en 2024. Elle sera incontournable d'ici le troisième trimestre 2026.
La question des courtiers de données se complique
Bright Data a déclaré plus de 300 millions de dollars de revenus annualisés avec une croissance de plus de 50 % d'une année sur l'autre, et a indiqué clairement que les données pour l'IA en sont le principal moteur. Le marché des données d'entraînement conformes a explosé car l'alternative (scraper tout ce que l'on veut) est devenue plus risquée pour deux raisons précises.
Premièrement, le front juridique s'est élargi. La Cour suprême a rejeté la requête de Bright Data concernant ses brevets en février 2026, et deux de leurs brevets sur les proxies résidentiels ont été invalidés. Oxylabs a répliqué par une contre-plainte, avec un procès prévu pour le 18 mai 2026. Quel que soit votre avis sur le fond, cela se traduit par des litiges coûteux sur la manière dont les données sont collectées. Les acteurs plus modestes qui observent la situation ne sont pas rassurés.
Deuxièmement, le front technique s'est élargi. Les fournisseurs de solutions anti-bots ont commencé à partager des informations sur les menaces entre les sites de leurs clients en temps réel. Un comportement de scraping détecté sur un site d'e-commerce peut être bloqué sur des centaines d'autres en quelques heures (SecurityBoulevard, 2026). L'ancienne méthode consistant à faire tourner des proxies bon marché en espérant que cela passe a cessé de fonctionner vers la fin de 2025. Nous avons analysé cette transition dans la détection de bots est devenue comportementale.
En résumé : le coût de la collecte de données d'entraînement en interne a augmenté sur les deux plans. L'exposition juridique a grimpé. La difficulté technique a augmenté. Les entreprises qui continuent dans cette voie doivent soit investir massivement dans l'infrastructure, soit accepter que leurs jeux de données ne résisteront pas à un audit.
Perspectives d'ici la mi-2027
Nous pensons que les 18 prochains mois vont redéfinir le paysage des fournisseurs de trois manières.
La conformité devient un prérequis incontournable. ISO 27001, SOC 2, processus alignés sur le RGPD, traçabilité des données. Ce ne sont plus des facteurs de différenciation, mais des exigences minimales. Bright Data dispose déjà des certifications ISO 27001 et SOC 2. La plupart de leurs concurrents s'efforcent de rattraper leur retard. Les équipes qui déploient des produits d'IA sérieux refuseront de travailler avec un fournisseur de collecte de données incapable de présenter ces certificats.
Les pistes d'audit deviennent une fonctionnalité clé. Aujourd'hui, la plupart des API de scraping renvoient les données et ignorent le reste. D'ici 2027, une part importante des clients exigera un historique : URL source, heure de récupération, code de réponse, état du robots.txt au moment de la requête, vérifications d'opt-out. Des métadonnées rébarbatives qui se transforment en bouée de sauvetage réglementaire lorsqu'un modèle est contesté.
La consolidation des fournisseurs s'accélère. Les coûts liés à la conformité favorisent les grands acteurs. Les petites API de scraping qui survivent avec des abonnements à 69 $/mois devront soit monter en gamme, soit être exclues de tout contrat lié à l'entraînement de l'IA. Les fournisseurs de taille intermédiaire qui associent conformité et tarifs raisonnables capteront cette demande déplacée. Le calcul de l'alternative faire-ou-acheter que nous avons détaillé le mois dernier est devenu encore moins favorable au développement interne.
Ce que cela signifie pour les équipes d'ingénierie
Si vous lancez un produit d'IA dans les 12 prochains mois, vos décisions en matière d'approvisionnement en données ne relèvent plus uniquement de l'infrastructure. Elles constituent une question de risque juridique et d'accès au marché.
Trois questions à poser concernant votre pipeline actuel :
Pouvez-vous lister chaque domaine crawlé au cours des 12 derniers mois, avec horodatage ? Si ce n'est pas le cas, vous ne passerez pas un audit de base.
Respectez-vous les signaux d'opt-out au moment de la récupération, et non lors de l'entraînement ? Le robots.txt et la balise X-Robots-Tag ne sont plus facultatifs.
Si votre fournisseur de données modifiait ses conditions demain, votre pipeline d'entraînement survivrait-il ? La plupart des équipes ne se sont pas posé la question.
Faites donc le point dès maintenant. Les premières demandes d'audit arrivent déjà chez des entreprises qui pensaient avoir encore un an pour s'y préparer.
Notre position sur le sujet
La conformité dès la conception (compliance-by-design) n'est pas un argument marketing. C'est une décision de survie pour toute équipe dont le produit dépend des données web. Les équipes qui considèrent la traçabilité des données comme une fonctionnalité de priorité absolue (P0) dès aujourd'hui s'éviteront une course contre la montre brutale en 2027. Celles qui la traitent comme de la simple paperasse découvriront, tôt ou tard, que cette paperasse est précisément ce qui sépare leur produit de son marché.
La fin du libre-service pour les données d'entraînement n'est pas due à la malveillance des régulateurs. Elle s'explique par le fait que les conséquences d'une erreur sont passées de "un article de blog embarrassant" à "impossible de distribuer votre produit en Europe". Cela change la donne pour tous les acteurs de la chaîne logistique.