全部文章

Web Scraping 焦油坑:谁真正被困其中

网站正在部署焦油坑来诱捕 AI 爬虫并向其喂送垃圾数据。但这些陷阱无法区分 GPTBot 和你的价格追踪器。

网站正在为 AI 爬虫设置陷阱

一款名为 Nepenthes 的工具在 2025 年初走红。它生成由虚假网页组成的无限迷宫,每个页面都链接到更多虚假页面,旨在将爬虫困在无法逃脱的循环中。这些页面上的文本?通过算法生成的乱码,旨在用垃圾数据污染 AI 训练数据集。

Nepenthes 并非个例。像 Locaine 这样的项目以及越来越多开源的“焦油坑”在 GitHub 上涌现,它们有着相同的诉求:如果 AI 公司不遵守 robots.txt,网站所有者就会用毒药进行反击。

这种动机显而易见。arXiv 上的一项学术研究发现,知名网站对 AI 的屏蔽比例从 2023 年 9 月的 23% 飙升至 2025 年 5 月的近 60%。BuzzStream 的分析显示,79% 的主流新闻网站现在通过 robots.txt 屏蔽 AI 训练机器人。而 Cloudflare Radar 报告指出,2025 年中期 75% 与 AI 相关的网络流量是为训练目的而产生的,而非搜索或推理。

但焦油坑不会检查凭证。它们不会询问你为何进行爬取。它们会困住任何看起来像自动化的东西。

谁真正被困其中

预期的目标显而易见:GPTBot、ClaudeBot,以及收集公开网络数据用于训练的 AI 公司爬虫。问题在于,焦油坑无法区分 OpenAI 的爬虫和你的价格监控脚本。

焦油坑会检测自动化的 request 模式。如果你的爬虫系统地追踪链接、以固定的时间间隔访问页面,或者跳过 JavaScript 执行(大多数 AI 训练爬虫的运作方式),它看起来就像一个目标。陷阱不在乎你是一个追踪竞争对手价格的 10 人电商团队。它看到类似机器人的流量,就会开始提供虚假页面。

这不仅仅是理论。罗格斯大学和沃顿商学院的研究发现,屏蔽 AI 爬虫的网站总流量下降了 23.1%,真实人类流量下降了 13.9%。这种激进的屏蔽姿态不仅阻止了 AI 爬虫,也损害了网站自身的可见度。

此外,焦油坑更进一步:它们主动消耗爬虫的计算、存储和带宽资源,同时向其喂送会降低其正在构建的模型或数据库质量的数据。

升级阶梯

robots.txt 一直是一项君子协定。当每个人都遵守规则时,它才起作用。当大型 AI 公司开始无视它(或对“用于搜索的爬取”与“用于训练的爬取”进行富有创意的解读)时,网站所有者便升级了对抗手段。

这种模式如下所示:

  1. Robots.txt 屏蔽: 礼貌的请求
  2. User-Agent 过滤: 屏蔽已知的 AI 爬虫特征
  3. 行为检测: 通过 request 模式捕获未知的爬虫
  4. 焦油坑: 主动消耗资源并污染数据的对抗措施

每一步都会捕获更多威胁。每一步也会捕获更多合法的流量。到了第四步,你已经将所有自动化访问视为敌对行为。因此,一个为比价服务收集公开产品价格的爬虫,会遇到与未经许可收集数据的 GPTBot 相同的陷阱。

数据团队现在应该做什么

如果你正在进行任何规模的数据收集,焦油坑都会改变游戏规则。有几件事比以往任何时候都更重要。

始终遵守 robots.txt。 这听起来很基础,但现在已是基本门槛。网站将 robots.txt 作为第一道过滤器。忽视它,你就会将自己归入与引发这一整套焦油坑反应的 AI 训练机器人相同的类别。

不要让自己看起来像训练爬虫。 AI 训练爬虫具有可预测的特征:它们追踪每一个链接、批量 request 页面、跳过 JavaScript,并保持规律的时间间隔。如果你的爬虫也这样做,行为检测就会将其标记。改变你的时间间隔。仅加载你需要的内容。当网站需要时执行 JavaScript。我们在 为什么你的 Web 爬虫总是失效 中撰写了导致爬虫被屏蔽的原因。

验证输入的数据。 焦油坑提供看起来合情合理的垃圾数据。如果你没有在流水线中检查 response,你可能会将 Markov 生成的文本作为真实的产品描述进行存储。将验证构建为核心步骤,而不是事后才想到的补救措施。

投资你的 request 基础设施。 旧的套路(轮换 IP、破解 CAPTCHA、失败重试)已经不够用了。现代反机器人系统会分析 TLS 指纹、浏览器行为和会话模式。Smart proxy routing 有所帮助,但真正的转变是从 IP 级别检测转向行为级别检测。如果你正在爬取大量使用 JavaScript 的网站,基于浏览器的收集 正日益成为唯一可靠的方法。

访问差距正在扩大

我们认为网络正走向明显的分裂。一方是:通过付费访问协议、API 合作伙伴关系和授权爬取将数据变现的网站。另一方是:将所有自动化访问视为威胁并部署渐进式激进对抗措施的网站。

对于数据团队而言,这意味着收集成本将持续上升。不是因为技术更难构建,而是因为环境更加敌对。投资于负责任、透明的爬取实践的团队将保持其访问权限。而那些看起来像训练机器人的团队将被困住、被投毒并被拒之门外。

焦油坑不会消失。你的团队要考虑的问题不是是否要担心它们。而是你的基础设施能否在数据进入数据库之前,识别出真实页面与陷阱之间的区别。