Tất cả bài viết

FourA xuất hiện trong Dawn, và đó là sự trỗi dậy của một điều gì đó mới

Dawn đã ra mắt tích hợp FourA trong tuần này. Đằng sau mỗi câu trả lời của agent có tương tác với web thực tế, giờ đây là một lệnh gọi trích xuất dữ liệu. Dưới đây là mô hình đang dần định hình.

Một kỹ sư mở Dawn và hỏi: "Scrape https://topstartups.io/ và cung cấp cho tôi 10 startup đầu tiên, bao gồm tên, mô tả, HQ, năm thành lập, URL, trang mạng xã hội, định dạng dưới dạng một bảng."

Agent suy nghĩ trong giây lát, fetch trang, parse danh sách, truy cập hồ sơ của từng startup và trả về bảng kết quả. Mười hàng. Mọi cột đều có dữ liệu. Pogo, Auctor, Scalify, Omnea, Rivan, Listen Labs, Doppel, Blossom, Avoca, Traba. HQ tại Brooklyn, New York, London, San Francisco, Remote. Hầu hết đều có LinkedIn. Năm thành lập từ 2020 đến 2026.

Bảng dữ liệu đó là kết quả đầu ra của một vài lệnh gọi FourA.

Tuần này, Dawn đã ra mắt FourA như một công cụ hạng nhất (first-class tool) bên trong nền tảng agent của họ. Nó nằm trong lưới tích hợp cạnh Notion, GitHub và Google Drive. Các agent được cấp quyền truy cập FourA có thể fetch một trang web công khai hoặc endpoint HTTP, parse response (bao gồm cả JSON), gửi biểu mẫu (submit form), kiểm tra khả năng tiếp cận (reachability) và trích xuất văn bản hoặc liên kết cụ thể từ kết quả trả về. Mỗi agent có quyền truy cập rõ ràng hoặc không. Quản trị theo từng agent (per-agent governance), tránh rủi ro tự hại kiểu "mọi agent đều có quyền truy cập internet".

FourA trong lưới tích hợp của Dawn, bên cạnh OneDrive, MailJet, Linear, Jira và Trello FourA trong lưới tích hợp của Dawn, bên cạnh OneDrive, MailJet, Linear, Jira và Trello

Điều thú vị không phải là việc một agent có thể truy cập một URL. Tìm kiếm web (web search) đã tồn tại trong các nền tảng agent từ một năm nay. Điều thú vị là mô hình công cụ đang dần định hình.

Tìm kiếm web (web search) và trích xuất URL (URL extraction) là hai công việc khác nhau. Tìm kiếm là để trả lời câu hỏi "internet nói gì về X?" Thông tin mang tính khái quát, tạo sinh và ở mức độ tóm tắt. Trích xuất là để xử lý yêu cầu "đây là URL hoặc endpoint, hãy fetch nó và cung cấp cho tôi câu trả lời có cấu trúc." Yêu cầu về độ tin cậy khác nhau, cấu trúc chi phí khác nhau, các kịch bản lỗi khác nhau. Việc gộp chung chúng vào một công cụ sẽ tạo ra kết quả trung bình cho cả hai.

Tích hợp của Dawn coi chúng là hai phần riêng biệt. Họ có tính năng /web-research cho công việc tìm kiếm rộng. FourA dành cho công việc trích xuất mục tiêu. Một agent sẽ chọn công cụ phù hợp dựa trên những gì nó thực sự cần. Và đó là mô hình trưởng thành mà chúng ta bắt đầu thấy trên các nền tảng agent vào năm 2026: trích xuất đang nâng cấp từ vị thế "tính năng tìm kiếm gắn thêm" thành một thành phần cơ bản (primitive) độc lập.

Dành cho các kỹ sư nền tảng đang đọc bài viết này

Dawn cung cấp FourA dưới dạng tám công cụ được đặt tên, mỗi công cụ tương ứng với một mô hình trích xuất phổ biến:

  • foura_fetch_page dành cho các trang HTML và văn bản
  • foura_extract_text dành cho nội dung sạch, dễ đọc
  • foura_extract_links dành cho điều hướng, biểu mẫu, script và style
  • foura_fetch_json dành cho các endpoint API
  • foura_head_url dành cho header, trạng thái (status), chuyển hướng (redirect)
  • foura_probe_site để kiểm tra nhanh khả năng tiếp cận (reachability)
  • foura_submit_form để gửi biểu mẫu không cần đăng nhập
  • foura_single_request dành cho HTTP tùy ý

Agent sẽ lựa chọn dựa trên yêu cầu của câu hỏi. Truy vấn topstartups ở trên đã sử dụng tuần tự ba công cụ trong số đó: một lệnh fetch, một lệnh extract và một lệnh follow-up.

Việc tích hợp đủ đơn giản để hoàn thành trong một ngày. Có hai dạng request bên dưới: chế độ trực tiếp (direct mode) với tính năng giả lập dấu vết trình duyệt (browser-grade fingerprinting) dành cho các trang web không chặn quá gắt gao, và chế độ định tuyến qua proxy (proxy-routed mode) cho tất cả các trường hợp còn lại. Cả hai đều chia sẻ cùng một cấu trúc request: URL, header và body tùy chọn, parse response tùy chọn. Agent sẽ lựa chọn dựa trên yêu cầu của trang web mục tiêu.

Cam kết (contract) mà một nền tảng cung cấp cho các agent của nó thường có dạng:

  • Một tập hợp nhỏ các tính năng (fetch / extract / probe / submit), mỗi tính năng có một định nghĩa công cụ tập trung mà agent có thể sử dụng
  • Mặc định là chế độ proxy, chuyển sang chế độ trực tiếp (direct) khi độ trễ (latency) hoặc chi phí là yếu tố quan trọng
  • Quyền hạn theo từng agent để khách hàng của nền tảng duy trì khả năng quản trị
  • Tính năng parse response có cấu trúc được hiển thị dưới dạng tham số công cụ (tool param), chứ không bị ẩn trong system prompt

Nhưng phần mà hầu hết các kỹ sư nền tảng đánh giá thấp là những gì xảy ra ở phần rìa (the tail). Trường hợp 80% (lệnh fetch thành công trong 200ms, trả về HTML sạch) là phần dễ dàng. 20% còn lại (các trang web chặn dựa trên TLS fingerprint, đưa thử thách JS challenge vào response, hoặc trả về lỗi 403 do chặn dải IP đám mây) mới là yếu tố quyết định agent của bạn trả về câu trả lời chính xác hay một câu trả lời ảo giác (hallucinated). Chúng tôi đã xây dựng lại đường truyền request của mình chính vì phần rìa đó, và sự khác biệt giữa "cảm giác đáng tin cậy" và "thực sự đáng tin cậy" chiếm phần lớn khối lượng công việc.

Vì vậy, nếu bạn vận hành một nền tảng agent và khách hàng của bạn liên tục hỏi làm thế nào để agent của họ có thể "chỉ cần kiểm tra URL này," thì đó chính là mô hình. Tài liệu hướng dẫn có tại /docs. Chúng tôi rất vui lòng được hướng dẫn bạn.

Dành cho những người khác

Bạn sẽ không nhìn thấy bất kỳ điều nào trong số này. Bạn sẽ chỉ nhận thấy rằng khi bạn hỏi trợ lý AI một câu hỏi yêu cầu xem một trang web thực tế ngay tại thời điểm đó, nó sẽ trả lời chính xác thay vì đoán mò hoặc xin lỗi.

Đó là kết quả hướng tới người dùng của một thành phần cơ bản trích xuất (extraction primitive) đủ tin cậy để đứng cạnh GitHub và Google Drive trong lưới tích hợp. Nó không còn là một dự án nghiên cứu nữa. Nó bắt đầu trở thành hệ thống hạ tầng cơ bản (plumbing).

Tại sao điều này lại quan trọng

Sáu tháng trước, một agent cần đọc một trang web là một sản phẩm tự dựng (custom build). Các prompt tự viết, các công cụ scraper dễ hỏng, các cơ chế thử lại tự chế, và tỷ lệ thành công 60% vào một ngày đẹp trời. Mô hình này chưa chuẩn vì lớp hạ tầng đó chưa tồn tại. Và các trang web mà agent truy cập liên tục thay đổi. Công nghệ chống bot đã chuyển dịch từ các tín hiệu tĩnh sang kiểm tra hành vi, vì vậy các scraper chắp vá xuống cấp nhanh hơn khả năng vá lỗi của các đội ngũ phát triển.

Giờ đây, lớp hạ tầng đó đang dần hình thành. Dawn đã đón đầu và ra mắt một bản tích hợp. Chúng tôi kỳ vọng sẽ có nhiều nền tảng agent làm theo trong năm nay, và chúng tôi mong đợi cam kết (contract) sẽ hội tụ về một hướng: một công cụ chuyên dụng cho tìm kiếm, một công cụ chuyên dụng cho trích xuất, quản trị theo từng agent, chi phí có thể dự đoán được.

Chúng ta đang ở giai đoạn đầu. Nhưng đây chính là biểu hiện của sự trỗi dậy của một xu hướng mới. Khi một tính năng không còn là một dự án nữa mà bắt đầu trở thành một module cắm ăn ngay (plug).

Nếu bạn đang xây dựng một nền tảng agent và muốn cung cấp một mô hình tương tự, hãy liên hệ với chúng tôi. Nếu bạn xây dựng các agent trên Dawn, FourA đã có sẵn ở đó. Hãy bật nó lên.