AI学習データの無秩序な収集は終わりを迎える
2025年中頃、AI関連のウェブトラフィックの75%は学習データの収集でした(Cloudflare Radar via Bright Data、2025年)。推論でも、検索でもありません。学習です。次のモデルに供給するためにクローラーがページを収集しているのです。
その時代は終わりつつあります。
過去6ヶ月間で3つの要因が重なりました。EU AI法の透明性要件が、草案段階から法的強制力を持つ段階へと移行しました。各サイトはAIクローラーの大規模なブロックを開始しました。信頼性の高いドメインのブロック率は、2023年9月の23%から、2025年末時点で60%に上昇しています(Ars Technica, 2025)。そして、学習データの購入者は、そのデータの出所について新たな質問を投げかけ始めています。
スクレイピングされたデータを使用してモデルを学習させるプロダクトを開発している場合、ほとんどの開発チームがまだコストに織り込んでいない問題に直面することになります。
EU AI法が実際に求めていること
2026年の本格導入により、AI学習データのソースに対する透明性要件が導入されます(Scalevise summary, 2026)。汎用AIモデルのプロバイダーは、モデルに投入されたデータの要約を公表しなければなりません。制作者や権利保持者はオプトアウトを選択でき、そのオプトアウトはモデルの学習レイヤーではなく、データ収集レイヤーで尊重されなければなりません(学習レイヤーではすでに手遅れだからです)。
実務上、調達チェックリストには次の3つの項目が並ぶことになります。
- どのサイトを、いつ、どのような許可のもとでクロールしたかの公開記録
- robots.txtや明示的なオプトアウトシグナルを尊重する仕組み
- 2年後の監査にも耐えうるデータリネージ(データの系譜)
しかし、ここに落とし穴があります。どこから何を収集したかを把握していないパイプラインに、後からコンプライアンスを継ぎ接ぎすることはできません。スクレイピングをサイドプロジェクトとして構築したチームは、「サイドプロジェクト」と「監査対応可能」が両立しないことに気づくことになります。
つまり、ベンダー選定において「データ収集パートナーはクリーンな監査証跡を提示できるか?」という問いが加わることになります。この問いは、2024年のチェックリストにはほとんど存在しませんでした。しかし、2026年第3四半期までには、あらゆる本格的なチェックリストに記載されるようになるでしょう。
データブローカーに関する問題の難化
Bright Dataは、前年比50%以上の成長を遂げ、年換算売上高が3億ドルを超えたと報告しており、AI向けデータがその成長を牽引するエンジンであることを明言しています。コンプライアンスに準拠した学習データの市場が急拡大した理由は、その代替手段(単に欲しいデータを手当たり次第にスクレイピングすること)のリスクが、主に2つの側面で高まったためです。
第一に、法的なリスク領域が拡大しました。最高裁判所は2026年2月にBright Dataの特許申請を却下し、同社のレジデンシャルproxyに関する2つの特許が無効化されました。Oxylabsは反訴し、裁判は2026年5月18日に予定されています。主張の是非はともかく、結果としてデータ収集方法を巡る高額な訴訟が発生しています。これを見守る小規模なプレイヤーたちも、決して楽観視はしていません。
第二に、技術的な難易度が上がりました。アンチボットベンダーは、顧客サイト間で脅威インテリジェンスをリアルタイムに共有し始めました。あるECサイトで検知されたスクレイピングパターンは、数時間以内に何百ものサイトでブロックされる可能性があります(SecurityBoulevard, 2026)。安価なproxyをローテーションさせてやり過ごすという古い手法は、2025年末頃に通用しなくなりました。この変化については、ボット検知は行動分析へと移行したで解説しています。
これらを総合すると、自社で学習データを収集するコストは両方の軸で上昇しました。法的リスクが高まり、技術的難易度も上がりました。現在も自社収集を続けている企業は、インフラに多額の資金を投じるか、自社のデータセットが監査に耐えられないことを受け入れるかの二者択一を迫られています。
2027年中頃までの展望
今後18ヶ月間で、ベンダー業界は次の3つの形で再編されると考えています。
コンプライアンスが必須条件になる。 ISO 27001、SOC 2、GDPR準拠のプロセス、データリネージ。これらは差別化要因ではなく、最低要件です。Bright DataはすでにISO 27001とSOC 2を取得しています。競合他社の多くは対応に追われています。本格的なAIプロダクトをリリースするチームは、証明書を提示できないデータ収集ベンダーの採用を拒否するようになるでしょう。
監査証跡が機能になる。 現在のほとんどのスクレイピングAPIは、データを返却した後にそれ以外の情報を破棄します。2027年までに、少なからぬ顧客が、ソースのURL、取得日時、レスポンスコード、取得時のrobots.txtのステータス、オプトアウトの確認結果などの記録を求めるようになるでしょう。これらは一見退屈なメタデータですが、モデルの正当性が問われた際にはコンプライアンス上の生命線となります。
ベンダーの集約が加速する。 コンプライアンスのオーバーヘッドは規模の大きい企業に有利に働きます。月額69ドルのプランで存続している小規模なスクレイピングAPIは、ターゲットをエンタープライズ層にシフトするか、AI学習に関連する案件から淘汰されるかのどちらかになるでしょう。コンプライアンスと適正な価格設定を両立させる中堅ベンダーが、その受け皿となります。先月解説した自社構築か購入かの損益計算は、自社構築派にとってさらに厳しいものになりました。
開発チームにとっての意味
今後12ヶ月以内にAIプロダクトをリリースする場合、データソーシングの決定はもはや単なるインフラの課題ではありません。それは法的リスクの課題であり、市場へのアクセスに関わる課題です。
現在のパイプラインについて、次の3つの点を確認してください。
過去12ヶ月間にクロールしたすべてのドメインを、タイムスタンプ付きでリスト化できますか? できない場合、基本的な監査すら通過できません。
学習時ではなく、データ取得時にオプトアウトシグナルを尊重していますか? Robots.txtやX-Robots-Tagは、もはや任意のものではありません。
もしデータベンダーが明日規約を変更した場合、あなたの学習パイプラインは存続できますか? ほとんどのチームは、この問いを立てていません。
今すぐ確認してください。最初の監査要求は、対応までにまだ1年の猶予があると考えていた企業にすでに届き始めています。
私たちの見解
「設計段階からのコンプライアンス(Compliance-by-design)」は、マーケティング用の謳い文句ではありません。ウェブデータに依存するプロダクトを持つすべてのチームにとって、それは生き残るための決断です。今すぐデータリネージを最優先(P0)機能として扱うチームは、2027年に激しい混乱に巻き込まれずに済むでしょう。それを単なる事務手続きとして扱うチームは、最終的に、その事務手続きこそが自社プロダクトと市場を隔てる壁であることに気づくはずです。
学習データの無秩序な収集が終わろうとしているのは、規制当局が執念深いからではありません。対応を誤った際の影響が、「恥ずかしいブログ記事を書かれる」レベルから「欧州でプロダクトをリリースできなくなる」レベルへと変化したためです。これは、サプライチェーンに関わるすべての人にとって、前提条件を根本から変えるものです。