Pay-Per-Crawl 正在将 Web 一分为二

2026 年 2 月 19 日，Stack Overflow 和 Cloudflare 公开了一件大多数 Web 数据行业始料未及的事情。他们联合推出了 Pay-Per-Crawl：在这个系统中，AI 爬虫会收到实时的 402 Payment Required 响应，它们要么支付发布商设定的价格，要么直接离开。Bot 身份在边缘端进行验证，价格由网站设定，交易按量计费。

Cloudflare 保护着互联网上大约五分之一的网站。因此，当他们对已知的 AI bot 启用默认拦截，并建立了一个允许发布商按 request 收费的市场时，整个公开 Web 很大一部分的访问模式在一个周末内就发生了改变。

如果你目前正在构建 Web 数据基础设施，这绝不是一个可以忽略的 Cloudflare 声明。它改变了“公开”一词背后的逻辑。

The Mechanic Behind the Flip

技术上的改动很小。Cloudflare 重新启用了长期闲置的 HTTP 402（“Payment Required”）状态码，并将其连接到已验证 AI 爬虫的注册表。发布商设定每个 request 的价格。爬虫要么持有信用余额并进行支付，要么被拦截。

非技术层面的变动则更大。在此之前，强制执行“不要为 AI 抓取我的内容”的唯一方法是 robots.txt（建议性的，非强制）和激进的 bot 拦截（非黑即白、有损且充满误报）。Cloudflare 增加了第三种选择：价格标签。

第三种选择的经济学原理与前两种不同。Robots.txt 毫无成本但会被忽略。Bot 拦截会让你损失被误判为 bot 的真实用户的流量。而价格标签在设计上将愿意付费的爬虫与不愿意付费的爬虫区分开来。

Who's Actually Charging

Stack Overflow 是首发合作伙伴，因为他们的训练数据确实非常有价值，而且他们已经在与 OpenAI 等公司谈判双边交易。Cloudflare 的市场将这些双边交易推广为一个注册表，其他发布商也可以接入其中。

跟进者的名单增长迅速。AWS 推出了自己的 bot 变现层。Akamai 构建了一个平行的变现层。对发布商的宣传非常直接：与其对 AI 实验室提起昂贵的诉讼，不如获得一条按 request 付费的收入线。

目前，这主要集中在高价值内容层：文档、新闻、技术问答、结构化参考数据。Web 的长尾部分（小型电商网站、区域列表、小众论坛）并没有这样的门槛，而且可能永远也不会有。Cloudflare 自身的 bot 管理运行需要成本，且 Pay-Per-Crawl 是自愿加入的。它只适用于那些单次页面浏览就值得收费的网站。

What This Means for Web Data Pipelines

如果你正在构建一个从 Stack Overflow、主要新闻网站或任何正在积极加入的发布商那里获取数据的管道，你的选择将缩减为三个。一旦你的流量被识别为 AI 爬虫，就通过该市场付费。在有授权数据集的情况下切换到授权数据集。或者在数据仍然公开的地方寻找数据。

大多数团队最终会在不同时期将这三者结合使用。这就是实际情况。Web 正在分裂为授权和公开两部分，而且界限并不会整齐地沿着域名划分。同一个发布商可以把一个板块放在 402 之后，而让另一个板块保持公开。同一个网站可以对一个爬虫收费，而完全忽略一个研究性质的 bot。

我们认为工程团队的实际应对措施如下。第一，审计你的数据源。如果你的管道中有相当一部分数据来自 Stack Overflow、Reddit、主要新闻网站或任何明显在争取这些交易的数十家发布商，请假定访问模式将在 12 个月内发生变化。第二，尽早在你的架构中将授权数据源与公开数据源分开。当一半的数据源开始要钱而另一半不要时，对每个数据源都一视同仁的管道是非常脆弱的。第三，不要再把 robots.txt 当作唯一的信号。即使你的爬虫不是 AI 代理，402 响应在操作上也具有实际意义。在这样一个全新的系统中，误报是不可避免的。

这与来自欧盟 AI 法案的训练数据合规压力并存，该法案已经推动团队转向可追踪来源的数据。Pay-Per-Crawl 是同样的压力，只是附加了一个计费层。

The Honest Take

有几件事会让人感到棘手。Cloudflare 的身份验证依赖于 bot 的主动注册。未注册的 bot，或者看起来像住宅流量的 bot，根本不会触发 402。相反，它们会触发正常的反 bot 技术栈。这已经是大多数激进的 AI 爬虫会采取的路径。因此，Pay-Per-Crawl 适用于那些想要合规的 bot。而那些不合规的 bot，本来也绝不会遵守 robots.txt。

更大的转变可能不在于市场本身。而是“此内容是否可用于 AI 训练”变成了一个有合同依据的确定问题，而不是基于 robots.txt 的猜测。发布商终于可以强制执行。爬虫终于可以明确知晓。在市场覆盖的范围内，灰色地带正在缩小。

依然处于灰色地带的是市场之外的一切。没有使用 Cloudflare 的小型网站、没有 AI 策略的区域聚合器、无人谈判的 Web 长尾部分：这些网站既不会返回 402，也拿不到授权协议。它们保留了之前拥有的任何访问策略，只是在有了补偿先例之后，抗议声会变得更大。

Where This Goes

两个预测，而且它们并非万无一失。

第一：未来 12 个月内将出现第二层付费墙，这次是针对非 AI bot。市场机制仅仅是一个 HTTP 状态码和一个计费层。在技术上，将其扩展到搜索爬虫定价、归档 bot 定价或竞争对手监控定价并不困难。发布商是否能坚守只对 AI 爬虫收费的底线，取决于下一波浪潮的表现。而在大多数年份里，这条底线都会被突破。

第二：AI 实验室会绕过它。不是通过忽略 402（这是可追踪的且会引发诉讼），而是通过批量购买授权数据集，然后将其余的所有抓取通过看起来像真实用户的流量来运行。Cloudflare 已经在推出更多的行为检测，正是因为他们深知这一点。两年来，我们已经目睹了这场军备竞赛转向会话级信号。它不会随着一个市场的出现而结束。

对于构建者来说，有趣的问题不是是否付费。而是公开 Web 在哪里能保持公开，以及能保持多久。