Alle Beiträge

Pay-Per-Crawl spaltet das Web in zwei Hälften

Der Pay-Per-Crawl-Marktplatz von Cloudflare und HTTP 402 spalten das Web in lizenzierte und offene Daten. Das ändert sich 2026 für Teams, die Webdaten sammeln.

Am 19. Februar 2026 gingen Stack Overflow und Cloudflare mit etwas an die Öffentlichkeit, das die meiste Webdatenbranche nicht kommen sah. Sie haben gemeinsam Pay-Per-Crawl gestartet: ein System, bei dem AI-Crawler eine Echtzeit-402 Payment Required-Response erhalten und entweder den Preis des Publishers zahlen oder gehen können. Die Bot-Identität wird an der Edge verifiziert, der Preis wird von der Website festgelegt, die Transaktion wird erfasst.

Cloudflare ist vor etwa jede fünfte Website im Internet geschaltet. Als sie also die standardmäßige Blockierung für bekannte AI-Bots aktivierten und einen Marktplatz einrichteten, auf dem Publisher pro Request abrechnen können, änderte sich das Zugriffsmodell für einen riesigen Teil des offenen Webs an einem einzigen Wochenende.

Wenn du gerade Webdateninfrastruktur entwickelst, ist das keine Cloudflare-Ankündigung zum Abheften. Es verändert die Logik dessen, was „offen“ bedeutet.

Die Mechanik hinter der Kehrtwende

Der technische Schritt ist klein. Cloudflare hat HTTP 402 reaktiviert, den lange inaktiven Statuscode „Payment Required“, und ihn mit einem Register verifizierter AI-Crawler verknüpft. Ein Publisher legt einen Preis pro Request fest. Der Crawler verfügt entweder über ein Guthaben und zahlt, oder er wird blockiert.

Der nicht-technische Schritt ist größer. Zuvor waren die einzigen Möglichkeiten, „Scrape meine Inhalte nicht für AI“ durchzusetzen, robots.txt (empfehlend, nicht erzwungen) und aggressives Bot-Blocking (binär, verlustbehaftet und voller False Positives). Cloudflare hat eine dritte Option hinzugefügt: ein Preisschild.

Die Wirtschaftlichkeit dieser dritten Option funktioniert anders als bei den ersten beiden. Robots.txt kostet nichts und wird ignoriert. Bot-Blocking kostet dich Traffic von echten Nutzern, die fälschlicherweise als Bots eingestuft werden. Ein Preisschild trennt bauartbedingt zahlungswillige Crawler von denen, die es nicht sind.

Wer verlangt tatsächlich Geld?

Stack Overflow war der Launch-Partner, weil ihre Trainingsdaten wirklich wertvoll sind und sie bereits bilaterale Verträge mit OpenAI und anderen verhandelten. Der Marktplatz von Cloudflare hat diese bilateralen Verträge in ein Register verallgemeinert, an das sich der Rest der Publisher-Welt anschließen kann.

Die Liste der Nachfolger wuchs schnell. AWS hat eine eigene Bot-Monetarisierungsebene auf den Markt gebracht. Akamai hat eine parallele Lösung entwickelt. Das Versprechen an die Publisher ist einfach: Statt einer teuren Klage gegen ein AI-Labor erhältst du eine Einnahmequelle, die pro Request bezahlt wird.

Vorerst betrifft dies hauptsächlich die Ebene hochwertiger Inhalte: Dokumentationen, Nachrichten, technische Q&A, strukturierte Referenzdaten. Der Longtail des Webs (kleine E-Commerce-Seiten, regionale Verzeichnisse, Nischenforen) befindet sich hinter keinem solchen Gate und wird es wahrscheinlich auch nie tun. Das Bot-Management von Cloudflare selbst kostet Geld im Betrieb, und Pay-Per-Crawl ist optional. Es lohnt sich nur für Websites, bei denen es sich auszahlt, für einen einzelnen Seitenaufruf Geld zu verlangen.

Was das für Webdaten-Pipelines bedeutet

Wenn du eine Pipeline aufbaust, die Daten von Stack Overflow, großen Nachrichtenseiten oder anderen aktiv teilnehmenden Publishern abruft, schrumpfen deine Optionen auf drei. Bezahle über den Marktplatz, sobald dein Traffic als AI-Crawler erkennbar ist. Wechsle zu einem lizenzierten Datensatz, sofern vorhanden. Oder finde die Daten dort, wo sie noch offen sind.

Die meisten Teams werden letztendlich alle drei Wege zu unterschiedlichen Zeiten gehen. Das ist die praktische Realität. Das Web spaltet sich in lizenziert und offen, und die Grenze verläuft nicht sauber entlang von Domain-Grenzen. Derselbe Publisher kann einen Bereich hinter 402 verstecken und einen anderen offen lassen. Dieselbe Website kann von einem Crawler Geld verlangen und einen Forschungsbot völlig ignorieren.

Wir glauben, die praktische Reaktion für Engineering-Teams sieht so aus. Erstens: Auditiere deine Quellen. Wenn ein erheblicher Teil deiner Pipeline Daten von Stack Overflow, Reddit, großen Nachrichtenseiten oder einem der Dutzenden Publisher abruft, die diese Deals sichtlich anstreben, solltest du davon ausgehen, dass sich das Zugriffsmodell innerhalb von zwölf Monaten ändern wird. Zweitens: Trenne lizenzierte Quellen frühzeitig von offenen Quellen in deiner Architektur. Eine Pipeline, die jede Quelle identisch behandelt, ist anfällig, wenn die Hälfte davon Geld verlangt und die andere Hälfte nicht. Drittens: Höre auf, robots.txt als einziges Signal zu betrachten. Die 402-Response wird betrieblich auch dann eine Bedeutung haben, wenn dein Crawler kein AI-Agent ist. False Positives sind in einem so neuen System unvermeidlich.

Dies reiht sich ein in den Druck zur Einhaltung von Trainingsdaten-Compliance durch den EU AI Act, der Teams bereits zu herkunftsgesicherten Quellen drängt. Pay-Per-Crawl ist derselbe Druck, nur mit einer Abrechnungsebene.

Eine ehrliche Bestandsaufnahme

Einige Dinge werden den Leuten zum Verhängnis werden. Die Identitätsprüfung von Cloudflare basiert darauf, dass sich Bots registrieren. Bots, die sich nicht registrieren oder wie Residential-Traffic aussehen, lösen überhaupt kein 402 aus. Sie treffen stattdessen auf den normalen Anti-Bot-Stack. Das ist ohnehin der Weg, den die meisten aggressiven AI-Crawler einschlagen werden. Pay-Per-Crawl funktioniert also für die Bots, die sich an die Regeln halten wollen. Diejenigen, die das nicht tun, hätten sich sowieso nie an die robots.txt gehalten.

Die größere Veränderung ist vielleicht nicht der Marktplatz selbst. Es ist die Tatsache, dass die Frage „Sind diese Inhalte für das AI-Training verfügbar?“ nun eine vertragliche Antwort hat, statt einer robots.txt-Vermutung. Publisher können dies endlich durchsetzen. Crawler können es endlich wissen. Die Grauzone schrumpft dort, wo der Marktplatz greift.

Grau bleibt alles außerhalb davon. Die kleine Website ohne Cloudflare, der regionale Aggregator ohne AI-Strategie, der Longtail des Webs, über den niemand verhandelt: Sie erhalten weder ein 402 noch einen Lizenzvertrag. Sie behalten die Zugriffsregeln bei, die sie vorher hatten, nur mit lauteren Protesten, jetzt, da es einen Präzedenzfall für Entschädigungen gibt.

Wohin die Reise geht

Zwei Prognosen, und sie sind nicht risikofrei.

Erstens: In den nächsten zwölf Monaten werden wir eine zweite Paywall-Stufe sehen, diesmal für Nicht-AI-Bots. Der Marktplatz-Mechanismus ist nur ein HTTP-Statuscode und eine Abrechnungsebene. Es ist technisch nicht schwer, dies auf Preise für Suchmaschinen-Crawler, Archiv-Bots oder Konkurrenzbeobachtung auszuweiten. Ob Publisher die Grenze einhalten und nur von AI-Crawlern Geld verlangen, hängt davon ab, wie sich die nächste Welle verhält. In den meisten Jahren bricht diese Grenze.

Zweitens: AI-Labore werden das umgehen. Nicht, indem sie das 402 ignorieren (das ist rückverfolgbar und wird rechtlich verfolgt), sondern indem sie lizenzierte Datensätze in großen Mengen kaufen und alles andere über Traffic abwickeln, der wie echte Nutzer aussieht. Cloudflare liefert bereits mehr Verhaltenserkennung aus, genau weil sie das wissen. Wir beobachten seit zwei Jahren, wie sich dieses Wettrüsten auf Signale auf Session-Ebene verlagert. Es endet nicht mit einem Marktplatz.

Die interessante Frage für Entwickler ist nicht, ob sie zahlen sollen. Sondern wo das offene Web offen bleibt und wie lange.