AI 训练数据的野蛮生长时代即将结束
2025 年中期,与 AI 相关的网络流量中有 75% 是训练数据收集(Cloudflare Radar 通过 Bright Data 报道,2025 年)。不是推理。不是搜索。而是训练。爬虫抓取网页以喂养下一个模型。
那个时代正在终结。
在过去的六个月中,有三件事交织在一起。欧盟 AI 法案的透明度要求从起草阶段进入了强制执行阶段。网站开始大规模拦截 AI 爬虫:截至 2025 年底,已有 60% 的知名域名实施了拦截,而 2023 年 9 月这一比例仅为 23%(Ars Technica,2025 年)。同时,训练数据的买家开始对数据来源提出新的疑问。
如果你正在构建一个使用抓取数据来训练模型的产品,你将面临一个大多数团队尚未评估其成本的问题。
欧盟 AI 法案的实际要求
2026 年的实施引入了对 AI 训练数据来源的透明度要求(Scalevise 总结,2026 年)。通用 AI 模型的提供商必须公布其模型输入内容的摘要。作者和权利持有人可以选择退出,并且这种退出选择必须在数据收集层得到尊重,而不是在模型训练层(因为那时已经太晚了)。
在实践中,采购清单上会出现以下三项:
- 你在何时、在何种许可下抓取了哪些网站的公开记录
- 遵守 robots.txt 和明确退出信号的机制
- 能够经受住两年后审计的数据血缘
但问题在于:你无法将合规性强加给一个根本不知道从哪里抓取了什么内容的数据管道。将数据抓取作为副业项目来构建的团队即将发现,“副业项目”与“随时待审”是互不兼容的。
换句话说:服务商选择现在包含这样一个问题:“你的数据收集合作伙伴能否提供清晰的审计追踪?”。在 2024 年,这个问题并没有出现在大多数清单上。但到 2026 年第三季度,它将出现在每一个严肃的清单中。
数据代理商问题变得更加棘手
Bright Data 报告了超过 3 亿美元的年化收入,同比增长超过 50%,并且他们已经明确表示,用于 AI 的数据是推动这一增长的引擎。合规训练数据市场之所以爆发,是因为另一种选择(即随意抓取任何你想要的数据)在两个特定方面变得更加危险。
首先,法律风险面扩大了。最高法院于 2026 年 2 月驳回了 Bright Data 的专利申请,其两项住宅 proxy 专利被宣告无效。Oxylabs 提起反诉,审判时间定于 2026 年 5 月 18 日。无论你对是非曲直如何看待,其结果都是关于数据如何收集的高昂诉讼成本。目睹这一切的小型玩家并没有放松警惕。
其次,技术对抗面扩大了。反爬虫服务商开始在客户网站之间实时共享威胁情报。在一个电商网站上被标记的抓取模式,可能会在几小时内被数百个网站拦截(SecurityBoulevard,2026 年)。轮换廉价 proxy 并寄希望于好运的旧套路在 2025 年底左右就已经失效了。我们在机器人检测已转向行为分析中探讨过这一转变。
总而言之:自建训练数据收集的成本在两个维度上都在上升。法律风险上升。技术难度增加。仍在坚持自建的公司要么在基础设施上投入真金白银,要么接受其数据集无法通过审计的现实。
到 2027 年中期的发展趋势
我们认为接下来的 18 个月将通过三种方式重塑服务商格局。
合规成为准入门槛。 ISO 27001、SOC 2、符合 GDPR 的流程、数据血缘。这些不是差异化优势,而是最低要求。Bright Data 已经拥有 ISO 27001 和 SOC 2 认证。他们的大多数竞争对手都在仓促应对。发布严肃 AI 产品的团队将拒绝引入无法提供这些证书的数据收集服务商。
审计追踪成为一项功能。 如今的大多数抓取 API 仅返回数据并丢弃其他所有内容。到 2027 年,相当一部分客户将需要记录:源 URL、获取时间、响应状态码、获取时的 robots.txt 状态、退出选择检查。当模型面临质疑时,这些枯燥的元数据将转化为合规的生命线。
服务商整合加速。 合规开销有利于规模化企业。依靠每月 69 美元档位生存的小型抓取 API 要么走向高端市场,要么在任何涉及 AI 训练的交易中被挤出局。将合规性与合理定价相结合的中端市场服务商将承接这些转移的需求。我们上个月梳理过的“自建还是购买”的算账对比,对自建方来说变得更加不利。
这对工程团队意味着什么
如果你在未来 12 个月内发布 AI 产品,你的数据获取决策将不再仅仅是一个基础设施问题。它们是一个法律风险问题,也是一个市场准入问题。
对你当前的数据管道提出以下三个问题:
你能列出过去 12 个月中抓取的每一个域名并附带时间戳吗? 如果不能,你将无法通过基本的审计。
你是否在获取时(而非训练时)尊重退出信号? robots.txt 和 X-Robots-Tag 不再是可选的。
如果你的数据服务商明天更改条款,你的训练管道还能生存吗? 大多数团队还没有问过这个问题。
所以现在就检查。第一批审计要求已经送达那些以为自己还有一年时间来解决这个问题的公司。
我们的立场
“设计即合规”不是一句营销口号。对于任何产品依赖网络数据的团队来说,这是一个关乎生存的决定。现在将数据血缘视为 P0 级功能的团队,将在 2027 年免于陷入残酷的混乱。而那些将其视为繁文缛节的团队最终会发现,正是这些繁文缛节决定了他们的产品能否进入市场。
训练数据的野蛮生长之所以走向终结,并非因为监管机构怀有敌意。而是因为出错的后果已经从“一篇令人尴尬的博客文章”变成了“你无法在欧洲发布产品”。这改变了供应链中每个人的利益权衡。