Tous les articles

Le Pay-Per-Crawl divise le Web en deux

La place de marché pay-per-crawl de Cloudflare et le code HTTP 402 divisent le web entre données sous licence et données ouvertes. Voici ce qui change pour les équipes qui collectent des données web en 2026.

Le 19 février 2026, Stack Overflow et Cloudflare ont rendu public un projet que la majeure partie de l'industrie des données web n'avait pas vu venir. Ils ont co-lancé pay-per-crawl : un système dans lequel les crawlers d'IA reçoivent une réponse 402 Payment Required en temps réel et peuvent soit payer le prix de l'éditeur, soit passer leur chemin. L'identité du bot est vérifiée à l'edge, le prix est fixé par le site, la transaction est mesurée à l'usage.

Cloudflare se trouve devant environ un site sur cinq sur Internet. Ainsi, lorsqu'ils ont activé le blocage par défaut pour les bots d'IA connus et mis en place une place de marché où les éditeurs facturent par request, le modèle d'accès pour une immense partie du web ouvert a changé en un week-end.

Si vous déployez actuellement une infrastructure de données web, ce n'est pas une annonce de Cloudflare à classer sans suite. Elle change la donne sur ce que signifie « ouvert ».

The Mechanic Behind the Flip

Le geste technique est minime. Cloudflare a ressuscité le code HTTP 402, le code d'état « Payment Required » longtemps resté dormant, et l'a connecté à un registre de crawlers d'IA vérifiés. Un éditeur fixe un prix par request. Le crawler dispose d'un solde de crédit et paie, ou se fait bloquer.

Le changement non technique est plus important. Avant cela, les seuls moyens d'imposer le refus du scraping de contenu pour l'IA étaient le fichier robots.txt (indicatif, non contraignant) et le blocage agressif des bots (binaire, destructeur de données et plein de faux positifs). Cloudflare a ajouté une troisième option : un prix à payer.

L'économie de cette troisième option fonctionne différemment des deux premières. Le fichier robots.txt ne coûte rien et se retrouve ignoré. Le blocage des bots vous coûte du trafic d'utilisateurs réels classés à tort comme bots. Un prix à payer, par conception, sépare les crawlers prêts à payer de ceux qui ne le sont pas.

Who's Actually Charging

Stack Overflow était le partenaire de lancement car leurs données d'entraînement ont une réelle valeur et ils négociaient déjà des accords bilatéraux avec OpenAI et d'autres. La place de marché de Cloudflare a généralisé ces accords bilatéraux en un registre auquel le reste du monde de l'édition peut se connecter.

La liste de ceux qui ont suivi s'est rapidement allongée. AWS a lancé sa propre couche de monétisation des bots. Akamai en a construit une parallèle. L'argument de vente auprès des éditeurs est simple : au lieu d'un procès coûteux contre un laboratoire d'IA, obtenez une source de revenus payée par request.

Pour l'instant, cela concerne principalement le niveau de contenu à haute valeur ajoutée : documentation, actualités, questions-réponses techniques, données de référence structurées. La longue traîne du web (petits sites de commerce électronique, annonces régionales, forums de niche) ne se trouve derrière aucune barrière de ce type et ne le sera probablement jamais. La gestion des bots de Cloudflare elle-même coûte de l'argent à faire fonctionner, et le pay-per-crawl est optionnel. Cela n'est rentable que pour les sites où une seule vue de page mérite d'être facturée.

What This Means for Web Data Pipelines

Si vous construisez un pipeline qui extrait des données de Stack Overflow, de grands sites d'actualités ou de l'un des éditeurs qui adoptent activement ce système, vos options se réduisent à trois. Payer via la place de marché dès que votre trafic est identifiable comme un crawler d'IA. Passer à un jeu de données sous licence lorsqu'il en existe un. Ou trouver les données là où elles sont encore ouvertes.

La plupart des équipes finiront par faire les trois à différents moments. C'est la réalité pratique. Le web se divise entre données sous licence et données ouvertes, et la frontière ne se dessine pas proprement le long des domaines. Un même éditeur peut avoir une section derrière un code 402 et une autre section ouverte. Un même site peut facturer un crawler et ignorer complètement un bot de recherche.

Nous pensons que la réaction pratique pour les équipes d'ingénierie ressemble à ceci. Premièrement, auditez vos sources. Si une part significative de votre pipeline extrait des données de Stack Overflow, Reddit, de grands sites d'actualités ou de l'un des dizaines d'éditeurs qui courtisent visiblement ces accords, partez du principe que le modèle d'accès changera d'ici douze mois. Deuxièmement, séparez tôt les sources sous licence des sources ouvertes au sein de votre architecture. Un pipeline qui traite chaque source de manière identique est fragile lorsque la moitié d'entre elles commence à demander de l'argent et que l'autre moitié ne le fait pas. Troisièmement, arrêtez de traiter le fichier robots.txt comme le seul signal. La réponse 402 aura une signification opérationnelle même si votre crawler n'est pas un agent d'IA. Les faux positifs sont inévitables dans un système aussi récent.

Cela s'ajoute à la pression de conformité des données d'entraînement issue de l'EU AI Act, qui poussait déjà les équipes vers des sources dont la provenance est tracée. Le pay-per-crawl représente la même pression, avec une couche de facturation en plus.

The Honest Take

Quelques éléments vont poser problème. La vérification d'identité de Cloudflare repose sur l'enregistrement des bots. Les bots qui ne s'enregistrent pas, ou qui ressemblent à du trafic résidentiel, ne déclenchent pas du tout de code 402. Ils se heurtent plutôt à la pile anti-bot classique. C'est déjà la voie que la plupart des crawlers d'IA agressifs vont emprunter. Ainsi, le pay-per-crawl fonctionne pour les bots qui veulent se conformer. Ceux qui ne le veulent pas n'allaient de toute façon pas respecter le fichier robots.txt.

Le changement le plus important n'est peut-être pas la place de marché elle-même. C'est le fait que la question « ce contenu est-il disponible pour l'entraînement de l'IA » a désormais une réponse contractuelle plutôt qu'une supposition basée sur le fichier robots.txt. Les éditeurs peuvent enfin faire appliquer leurs règles. Les crawlers peuvent enfin savoir. La zone grise se réduit là où la place de marché s'étend.

Ce qui reste gris, c'est tout ce qui se trouve en dehors. Le petit site sans Cloudflare, l'agrégateur régional sans stratégie d'IA, la longue traîne du web sur laquelle personne ne négocie : ceux-là ne reçoivent pas de code 402, et ils n'obtiennent pas non plus d'accord de licence. Ils conservent la politique d'accès qu'ils avaient auparavant, mais avec des protestations plus vives maintenant qu'il existe un précédent de compensation.

Where This Goes

Deux prédictions, et elles ne sont pas sans risques.

Premièrement : les douze prochains mois verront apparaître un deuxième niveau de paywall, cette fois pour les bots non liés à l'IA. Le mécanisme de la place de marché n'est qu'un code d'état HTTP et une couche de facturation. Il n'est pas techniquement difficile de l'étendre à la tarification des crawlers de recherche, des bots d'archivage ou de la surveillance des concurrents. La question de savoir si les éditeurs maintiendront la ligne consistant à ne facturer que les crawlers d'IA dépend du comportement de la prochaine vague. La plupart du temps, cette ligne finit par céder.

Deuxièmement : les laboratoires d'IA vont contourner le problème. Non pas en ignorant le code 402 (ce qui est traçable et passible de poursuites), mais en achetant des jeux de données sous licence en vrac, puis en faisant passer tout le reste par un trafic qui ressemble à de vrais utilisateurs. Cloudflare déploie déjà davantage de détection comportementale précisément parce qu'ils le savent. Nous observons cette course aux armements se déplacer vers des signaux au niveau de la session depuis deux ans maintenant. Cela ne s'arrête pas avec une place de marché.

La question intéressante pour les développeurs n'est pas de savoir s'il faut payer. C'est de savoir où le web ouvert le reste, et pour combien de temps.