すべての記事

ウェブスクレイピングのターピット:実際に罠にかかるのは誰か

ウェブサイトはAIクローラーを罠にかけ、ゴミデータを送り込むターピットを配備している。しかし、これらの罠はGPTBotとあなたの価格トラッカーを区別しない。

サイトはAIクローラーに罠を仕掛けている

2025年初頭、Nepenthesと呼ばれるツールが話題となった。これは偽のウェブページの無限の迷路を生成し、それぞれがさらに多くの偽ページにリンクすることで、クローラーを抜け出せないループに閉じ込めるように設計されている。それらのページのテキストは、AIのトレーニングデータセットをゴミで汚染するために作成された、アルゴリズムによって生成された意味不明な文字列である。

Nepenthesだけではない。Locaineのようなプロジェクトや、増え続けるオープンソースの「ターピット」がGitHubに登場しており、いずれも同じ主張を掲げている。AI企業がrobots.txtを尊重しないのであれば、サイト所有者は毒をもって対抗する、というものだ。

その動機は理にかなっている。arXivの学術研究によると、信頼できるサイトにおけるAIブロックの割合は、2023年9月の23%から2025年5月までに約60%へと急増した。BuzzStreamの分析では、大手ニュースサイトの79%が現在、robots.txtを介してAIトレーニングボットをブロックしていることが示されている。そして、Cloudflare Radarの報告によると、2025年中期におけるAI関連のウェブトラフィックの75%は、検索や推論ではなく、トレーニング目的で生成されたものだった。

しかし、ターピットはクレデンシャルを確認しない。なぜクローリングしているのかを尋ねることもない。自動化されているように見えるものはすべて罠にかける。

実際に罠にかかっているのは誰か

意図された標的は明らかだ。GPTBot、ClaudeBot、そしてトレーニングデータのために公開ウェブを収集しているAI企業のクローラーである。問題は、ターピットがOpenAIのクローラーとあなたの価格監視スクリプトの違いを区別できないことだ。

ターピットは自動化されたrequestパターンを検出する。もしあなたのスクレイパーが体系的にリンクをたどり、一定の間隔でページにアクセスし、あるいはJavaScriptの実行をスキップする場合(ほとんどのAIトレーニングクローラーが動作する方法)、それは標的のように見える。罠は、あなたが競合他社の価格を追跡している10人のEコマースチームであることなど気にしない。ボットのようなトラフィックを検知し、偽のページの提供を開始する。

これは単なる理論上の話ではない。ラトガース大学とウォートン校の研究によると、AIクローラーをブロックしているサイトでは、総トラフィックが23.1%減少し、人間のトラフィックが13.9%減少した。積極的なブロック姿勢は、AIスクレイパーを止めるだけではない。サイト自体の視認性も損なうのだ。

さらにターピットはそれだけに留まらない。クローラーの計算リソース、ストレージ、帯域幅を積極的に浪費させると同時に、構築中のモデルやデータベースを劣化させるデータを送り込む。

エスカレーションの段階

Robots.txtは常に紳士協定だった。全員がルールに従っている間は機能していた。主要なAI企業がそれを無視し始めたとき(あるいは「検索のためのクローリング」対「トレーニングのためのクローリング」の創造的な解釈を見つけ始めたとき)、サイト所有者は対策をエスカレートさせた。

そのパターンは以下の通りである。

  1. Robots.txtによるブロック: 礼儀正しい要請
  2. User-Agentフィルタリング: 既知のAIクローラーのシグネチャのブロック
  3. 行動検出: requestパターンによって未知のクローラーを捕捉する
  4. ターピット: リソースを浪費させ、データを汚染する積極的な対抗策

各段階が進むにつれて、より多くの脅威が捕捉される。同時に、より多くの正当なトラフィックも巻き込まれる。第4段階に達する頃には、すべての自動アクセスを敵対的なものとして扱うことになる。そのため、比較サービスのために一般公開されている商品の価格を収集しているスクレイパーは、許可なくデータを収集しているGPTBotと同じ罠にかかることになる。

データチームが今すべきこと

いかなる規模であれデータ収集を行っている場合、ターピットはルールを変えてしまう。以前よりもいくつかの事柄が重要になっている。

常にrobots.txtを尊重すること。 これは基本的なことに聞こえるが、今や最低限のルールである。サイトはrobots.txtを最初のフィルターとして使用している。これを無視すると、このターピットによる対抗策を引き起こしたAIトレーニングボットと同じカテゴリに分類されることになる。

トレーニングクローラーのように見せないこと。 AIトレーニングクローラーには予測可能なシグネチャがある。すべてのリンクをたどり、ページを大量にrequestし、JavaScriptをスキップし、一定の間隔を維持する。あなたのスクレイパーが同じことをすれば、行動検出によってフラグが立てられる。タイミングを変化させること。必要なものだけをロードすること。サイトが要求する場合はJavaScriptを実行すること。スクレイパーがブロックされる原因については、なぜウェブスクレイパーは壊れ続けるのかで解説している。

受信データを検証すること。 ターピットはもっともらしいゴミデータを提供する。パイプラインでresponseをチェックしていない場合、マルコフ連鎖で生成されたテキストを実際の商品説明として保存してしまう可能性がある。検証を後回しにせず、コアなステップとして構築すること。

requestインフラストラクチャに投資すること。 古いやり方(IPのローテーション、CAPTCHAの解決、失敗時の再試行)だけでは不十分である。現代のアンチボットシステムは、TLSフィンガープリント、ブラウザの挙動、セッションパターンを分析する。スマート proxy ルーティングは役立つが、真の移行はIPレベルから行動レベルの検出へのシフトである。JavaScriptを多用するサイトをスクレイピングする場合、ブラウザベースの収集がますます唯一の信頼できるアプローチになりつつある。

アクセスの格差が広がっている

ウェブは明確な分裂に向かっていると私たちは考えている。一方には、有料アクセス契約、APIパートナーシップ、ライセンスされたクローリングを通じてデータを収益化するサイト。もう一方には、すべての自動アクセスを脅威とみなし、段階的に攻撃的な対抗策を配備するサイトである。

データチームにとって、これは収集コストが上昇し続けることを意味する。技術の構築が難しくなるからではなく、環境がより敵対的になるからである。責任ある透明性の高いスクレイピング手法に投資するチームは、アクセスを維持できるだろう。トレーニングボットのように見えるチームは、罠にかかり、汚染され、締め出されることになる。

ターピットが消え去ることはない。あなたのチームにとっての問いは、それらを心配すべきかどうかではない。データがデータベースに到達する前に、インフラストラクチャが実際のページと罠の違いを見分けられるかどうかである。