Pay-Per-Crawlがウェブを二分する

2026年2月19日、Stack OverflowとCloudflareは、ウェブデータ業界のほとんどが予想していなかった発表を行いました。両社はPay-Per-Crawlを共同ローンチしました。これは、AIクローラーがリアルタイムで402 Payment Requiredのresponseを受け取り、パブリッシャーの設定した価格を支払うか、立ち去るかを選択するシステムです。ボットのアイデンティティはエッジで検証され、価格はサイトによって設定され、トランザクションは従量課金制となります。

Cloudflareはインターネット上の約5分の1のサイトの前面に位置しています。そのため、同社が既知のAIボットに対してデフォルトブロックを有効にし、パブリッシャーがrequestごとに課金できるマーケットプレイスを立ち上げたとき、オープンウェブの大部分に対するアクセスモデルが週末のうちに変貌しました。

現在ウェブデータインフラを構築している開発者にとって、これは単に聞き流していいCloudflareの発表ではありません。「オープン」が意味するものの計算式が変わるからです。

The Mechanic Behind the Flip

技術的な動きは小さなものです。Cloudflareは、長らく休眠状態だったHTTP 402（「Payment Required」ステータスコード）を復活させ、検証済みのAIクローラーのレジストリに関連付けました。パブリッシャーはrequestごとの価格を設定します。クローラーはクレジット残高を保持して支払うか、ブロックされるかのどちらかになります。

非技術的な動きはより大きなものです。これまでは、「AI用にコンテンツをスクレイピングさせない」ことを強制する唯一の方法は、robots.txt（推奨であり、強制力はない）と、アグレッシブなボットブロック（二者択一で、取りこぼしが多く、誤検知が発生しやすい）だけでした。Cloudflareは3つ目の選択肢を追加しました。それが「値札」です。

この3つ目の選択肢の経済性は、最初の2つとは異なります。robots.txtはコストがかからず、無視されます。ボットブロックは、ボットと誤判定された実際のユーザーからのトラフィックを失うコストが発生します。値札は、その設計上、支払う意思のあるクローラーとそうでないクローラーを振り分けます。

Who's Actually Charging

Stack Overflowがローンチパートナーとなったのは、彼らのトレーニングデータが真に価値があり、すでにOpenAIなどと個別の取引を交渉していたためです。Cloudflareのマーケットプレイスは、それらの個別取引を、他のパブリッシャーがプラグインできるレジストリへと一般化しました。

追随する企業のリストは急速に拡大しました。AWSは独自のボット収益化レイヤーをリリースしました。Akamaiも並行して同様のレイヤーを構築しました。パブリッシャーへのアピールは明快です。AIラボに対する高額な訴訟を1件起こす代わりに、requestごとに支払われる収益ラインを手に入れよう、というものです。

現在のところ、これは主に高価値なコンテンツ層（ドキュメント、ニュース、技術的なQ&A、構造化されたリファレンスデータ）が対象です。ウェブのロングテール（小規模なECサイト、地域のリスティング、ニッチなフォーラム）は、そのようなゲートの背後にはなく、今後もおそらくそうなることはないでしょう。Cloudflare独自のボット管理の運用にはコストがかかり、Pay-Per-Crawlはオプトイン方式です。1回のページビューに課金する価値があるサイトでのみ採算が合います。

What This Means for Web Data Pipelines

Stack Overflowや主要なニュースサイト、あるいは積極的に導入を進めているパブリッシャーからデータを取得するパイプラインを構築している場合、選択肢は3つに絞られます。トラフィックがAIクローラーとして識別された時点でマーケットプレイス経由で支払うか、ライセンスされたデータセットが存在する場合はそれに移行するか、あるいはデータがまだオープンな別の場所を探すかです。

ほとんどのチームは、状況に応じてこれら3つすべてを行うことになるでしょう。それが現実的な実態です。ウェブはライセンスとオープンに分裂しつつあり、その境界線はドメインごとにきれいに引かれているわけではありません。同じパブリッシャーであっても、あるセクションは402の背後に置き、別のセクションはオープンにすることができます。同じサイトが、特定のクローラーには課金し、研究用ボットは完全に無視することもあります。

エンジニアリングチームの実践的な対応は次のようになると考えています。第1に、ソースを監査すること。パイプラインの重要な部分がStack Overflow、Reddit、主要なニュースサイト、あるいはこれらの取引を明らかに模索している数十のパブリッシャーから取得している場合、アクセスモデルは12か月以内に変更されると想定してください。第2に、アーキテクチャの早い段階で、ライセンスされたソースとオープンなソースを分離すること。すべてのソースを同一に扱うパイプラインは、半数のソースが課金を求め、残りの半数が求めないようになったときに脆弱になります。第3に、robots.txtを唯一のシグナルとして扱うのをやめること。クローラーがAIエージェントでなくても、運用上、402のresponseは何らかの意味を持ちます。これほど新しいシステムでは、誤検知は避けられません。

これは、すでにチームをプロベナンス（出自）が追跡されたソースへと向かわせているEU AI法によるトレーニングデータのコンプライアンス圧力と並行するものです。Pay-Per-Crawlは、課金レイヤーが追加された同じ圧力と言えます。

The Honest Take

いくつかの落とし穴があります。Cloudflareのアイデンティティ検証は、ボットの登録に依存しています。登録しないボットや、レジデンシャル（住宅用）トラフィックのように見えるボットは、402をまったくトリガーしません。代わりに、通常のアンチボットスタックに衝突します。これは、最もアグレッシブなAIクローラーがすでに選択している経路です。したがって、Pay-Per-Crawlは準拠したいボットに対してのみ機能します。準拠しないボットは、最初からrobots.txtを尊重するつもりもありません。

より大きな変化は、マーケットプレイスそのものではないかもしれません。「このコンテンツはAIトレーニングに利用可能か」という問いが、robots.txtによる推測ではなく、契約上の回答を伴うものになったことです。パブリッシャーはついに強制できるようになり、クローラーはついに把握できるようになります。マーケットプレイスが届く範囲では、グレーゾーンは縮小します。

グレーのまま残るのは、その範囲外のすべてです。Cloudflareを導入していない小規模サイト、AI戦略のない地域のアグリゲーター、誰も交渉のテーブルにつかないウェブのロングテールなどです。これらは402を受け取ることも、ライセンス契約を結ぶこともありません。対価の先例ができたことで抗議の声は大きくなるものの、以前と同じアクセス方針を維持するだけです。

Where This Goes

2つの予測を立てます。これらは安易な予測ではありません。

1つ目：次の12か月で、今度は非AIボットを対象とした第2段階のペイウォールが登場するでしょう。マーケットプレイスの仕組みは、単なるHTTPステータスコードと課金レイヤーにすぎません。これを検索クローラーの価格設定、アーカイブボットの価格設定、あるいは競合監視の価格設定に拡張することは、技術的に難しくありません。パブリッシャーがAIクローラーのみに課金するという一線を維持できるかどうかは、次の波がどのように振る舞うかにかかっています。大抵の場合、その一線は崩れるものです。

2つ目：AIラボはこれを回避するでしょう。402を無視する（これは追跡可能であり、訴訟になります）のではなく、ライセンスされたデータセットを一括購入し、それ以外はすべて実際のユーザーに見えるトラフィックを介して実行するのです。Cloudflareがまさにこれを察知しているからこそ、より多くの行動検出機能をリリースしているのです。私たちは、その軍拡競争がセッションレベルのシグナルへと移行する様子を2年にわたり見守ってきました。これはマーケットプレイスで終わる話ではありません。

開発者にとって興味深い問いは、支払うべきかどうかではありません。オープンウェブがどこで、いつまでオープンであり続けるか、ということです。