FourA 接入 Dawn，这标志着某种趋势的兴起

一位工程师打开 Dawn 并问道："Scrape https://topstartups.io/ and give me the first 10 startups, including names, descriptions, HQ, year founded, URLs, social pages, formatted as a table."

agent 思考了片刻，获取了页面，解析了列表，访问了每家初创公司的个人资料，并返回了表格。十行。每一列都填充完整。Pogo、Auctor、Scalify、Omnea、Rivan、Listen Labs、Doppel、Blossom、Avoca、Traba。总部遍布布鲁克林、纽约、伦敦、旧金山、远程。大多数都有 LinkedIn。成立年份为 2020 年至 2026 年。

那个表格是几次 FourA 调用的输出结果。

本周，Dawn 在其 agent 平台中将 FourA 作为一等工具发布。它位于他们的集成网格中，紧邻 Notion、GitHub 和 Google Drive。获得 FourA 访问权限的 agent 可以获取公开网页或 HTTP endpoint，解析 response（包括 JSON），提交表单，检查可达性，并从返回的内容中提取特定的文本或链接。每个 agent 都有明确的访问权限，否则就没有。针对每个 agent 的治理，避免了“每个 agent 都能访问互联网”的隐患。

Dawn 集成网格中的 FourA，与 OneDrive、MailJet、Linear、Jira 和 Trello 并列

令人兴奋的并不是 agent 可以访问 URL。网页搜索在 agent 平台中已经存在了一年。真正有趣的是正在显现的工具形态。

网页搜索和 URL 提取是不同的工作。搜索是为了“互联网上关于 X 是怎么说的？”宽泛、生成式、摘要级的信息。提取则是为了“这是 URL 或 endpoint，获取它并给我结构化的答案。”不同的可靠性要求，不同的成本特征，不同的失败模式。将它们混在一个工具中，两者的效果都会变得平庸。

Dawn 的集成将它们分开对待。他们有一个用于宽泛工作的 /web-research 功能。FourA 则用于针对性的工作。agent 根据其实际需要来选择合适的工具。这就是我们在 2026 年开始在各个 agent 平台中看到的成熟模式：提取正在从“附加的搜索功能”升级为它自己的原语。

致正在阅读本文的平台工程师

Dawn 将 FourA 暴露为八个命名工具，每个工具都映射到一个常见的数据提取模式：

foura_fetch_page 用于 HTML 和文本页面
foura_extract_text 用于干净、可读的内容
foura_extract_links 用于导航、表单、脚本和样式
foura_fetch_json 用于 API endpoint
foura_head_url 用于 header、状态、重定向
foura_probe_site 用于快速可达性检查
foura_submit_form 用于免登录的表单提交
foura_single_request 用于任意 HTTP

agent 根据问题的需求进行选择。上面的 topstartups 查询按顺序使用了其中的三个：获取、提取、后续跟进。

该集成非常简单，一天内即可完成。底层有两种 request 形式：一种是针对没有严格限制的网站的、具有浏览器级指纹识别的直接模式，另一种是针对其他所有网站的 proxy 路由模式。两者共享相同的 request 结构：URL、可选的 header 和 body、可选的 response 解析。agent 根据目标网站的要求进行选择。

平台向其 agent 提供的约定通常类似于：

一组精简的功能（fetch / extract / probe / submit），每个功能都有一个明确的工具定义供 agent 调用
默认使用 proxy 模式，在对延迟或成本敏感时回退到直接模式
针对每个 agent 的权限控制，以便平台的客户保留治理权
结构化的 response 解析作为工具参数暴露，而不是埋在系统 prompt 中

但大多数平台工程师低估的是长尾部分发生的情况。80% 的情况（获取在 200 毫秒内成功，返回干净的 HTML）是容易的一半。另外 20% 的情况（限制 TLS 指纹的网站、在 response 中加入 JS 挑战的网站、对云 IP 段返回 403 的网站）决定了您的 agent 是交付正确的答案还是幻觉答案。我们正是针对这种长尾情况重构了我们的 request 路径，而“感觉可靠”与“真正可靠”之间的差距正是大部分工作所在。

因此，如果您运营一个 agent 平台，并且您的客户不断询问他们的 agent 如何才能“只检查这个 URL”，这就是解决方案。文档位于 /docs。我们很乐意为您详细介绍。

对于其他所有人

您不会看到这些细节。您只会注意到，当您向 AI 助手提出一个需要立即查看真实网页的问题时，它会正确回答，而不是猜测或道歉。

这就是面向用户的成果：一个足够可靠的数据提取原语，能够与 GitHub 和 Google Drive 并列在集成网格中。它不再是一个研究项目，而是开始成为基础设施。

为什么这很重要

六个月前，一个需要读取网页的 agent 还需要定制开发。定制的 prompt、脆弱的爬虫、手动编写的重试机制，运气好的时候成功率也只有 60%。由于这一层尚未存在，其形态是不对的。而且 agent 访问的网站一直在变化。反爬虫技术已从静态信号转向行为检测，因此临时拼凑的爬虫退化速度比团队修补它们的速度还要快。

现在，这一层正在形成。Dawn 已经采纳并发布了集成。我们预计今年会有更多的 agent 平台跟进，并且我们预计约定将会趋同：一个专用于搜索的工具，一个专用于提取的工具，针对每个 agent 的治理，以及可预测的成本。

我们还处于早期阶段。但这就是某种趋势兴起的样子。当一种功能不再是一个项目，而开始成为一个即插即用的组件。

如果您正在构建 agent 平台并希望提供相同的形态，请与我们联系。如果您在 Dawn 上构建 agent，FourA 已经内置其中。直接开启即可。