Tất cả bài viết

Pay-Per-Crawl đang chia đôi thế giới web

Chợ giao dịch pay-per-crawl của Cloudflare và HTTP 402 đang chia thế giới web thành dữ liệu có bản quyền và dữ liệu mở. Dưới đây là những thay đổi đối với các đội ngũ thu thập dữ liệu web vào năm 2026.

Vào ngày 19 tháng 2 năm 2026, Stack Overflow và Cloudflare đã công bố một điều mà hầu hết ngành dữ liệu web không lường trước được. Họ đồng ra mắt pay-per-crawl: một hệ thống nơi các crawler AI nhận được response 402 Payment Required theo thời gian thực và có thể chọn trả phí theo mức giá của nhà xuất bản hoặc rời đi. Danh tính bot được xác thực tại edge, giá do trang web tự thiết lập, và giao dịch được đo lường theo lượng sử dụng.

Cloudflare đứng trước khoảng một phần năm số trang web trên internet. Vì vậy, khi họ chuyển sang chế độ chặn theo mặc định đối với các bot AI đã biết và thiết lập một chợ giao dịch nơi các nhà xuất bản tính phí trên mỗi request, mô hình truy cập cho một phần lớn của thế giới web mở đã thay đổi chỉ trong một ngày cuối tuần.

Nếu bạn đang xây dựng cơ sở hạ tầng dữ liệu web vào lúc này, đây không phải là một thông báo của Cloudflare để bỏ qua. Nó thay đổi hoàn toàn định nghĩa về thế nào là "mở".

Cơ chế đằng sau sự thay đổi

Bước đi kỹ thuật này rất nhỏ. Cloudflare đã hồi sinh HTTP 402, mã trạng thái "Payment Required" vốn đã ngủ yên từ lâu, và kết nối nó với một danh bạ các crawler AI đã được xác thực. Nhà xuất bản sẽ thiết lập mức giá trên mỗi request. Crawler hoặc là có số dư tài khoản để thanh toán, hoặc là bị chặn.

Bước đi phi kỹ thuật mới là điều lớn hơn. Trước đây, cách duy nhất để thực thi quy định "không cào nội dung của tôi cho AI" là robots.txt (mang tính khuyến nghị, không bắt buộc) và chặn bot một cách triệt để (mang tính nhị phân, dễ mất mát dữ liệu, và đầy rẫy false positive). Cloudflare đã thêm một tùy chọn thứ ba: một nhãn giá.

Tính kinh tế của tùy chọn thứ ba đó hoạt động khác với hai tùy chọn đầu tiên. Robots.txt không tốn chi phí và bị phớt lờ. Chặn bot làm bạn mất lưu lượng truy cập từ người dùng thực bị phân loại nhầm thành bot. Một nhãn giá, theo thiết kế, sẽ phân tách các crawler sẵn sàng trả tiền khỏi những crawler không muốn trả.

Ai thực sự đang thu phí

Stack Overflow là đối tác ra mắt vì dữ liệu đào tạo của họ thực sự có giá trị và họ đã đang đàm phán các thỏa thuận song phương với OpenAI cùng các bên khác. Chợ giao dịch của Cloudflare đã khái quát hóa các thỏa thuận song phương đó thành một danh bạ mà phần còn lại của thế giới nhà xuất bản có thể tích hợp vào.

Danh sách những bên theo sau tăng lên nhanh chóng. AWS đã tung ra lớp kiếm tiền từ bot của riêng mình. Akamai cũng xây dựng một lớp tương tự. Lời chào mời dành cho các nhà xuất bản rất đơn giản: thay vì một vụ kiện tốn kém chống lại một phòng thí nghiệm AI, hãy có một nguồn doanh thu thanh toán trên mỗi request.

Hiện tại, đây chủ yếu là phân khúc nội dung có giá trị cao: tài liệu hướng dẫn, tin tức, hỏi đáp kỹ thuật, dữ liệu tham chiếu có cấu trúc. Phần đuôi dài (long tail) của thế giới web (các trang thương mại điện tử nhỏ, danh mục khu vực, diễn đàn ngách) không nằm sau rào cản như vậy và có lẽ sẽ không bao giờ. Bản thân tính năng quản lý bot của Cloudflare cũng tốn chi phí để vận hành, và pay-per-crawl là tính năng tự nguyện tham gia (opt-in). Nó chỉ mang lại hiệu quả kinh tế cho các trang web nơi một lượt xem trang đơn lẻ xứng đáng để tính phí.

Điều này có ý nghĩa gì đối với các Web Data Pipeline

Nếu bạn đang xây dựng một pipeline lấy dữ liệu từ Stack Overflow, các trang tin tức lớn, hoặc bất kỳ nhà xuất bản nào đang tích cực tham gia, các lựa chọn của bạn sẽ thu hẹp lại còn ba. Trả phí qua chợ giao dịch khi lưu lượng truy cập của bạn được nhận diện là một crawler AI. Chuyển sang một bộ dữ liệu có bản quyền nếu có sẵn. Hoặc tìm nguồn dữ liệu đó ở một nơi nào đó vẫn còn mở.

Hầu hết các đội ngũ sẽ thực hiện cả ba phương án này vào những thời điểm khác nhau. Đó là thực tế thực tiễn. Thế giới web đang chia tách thành có bản quyền và mở, và ranh giới không được phân định rõ ràng theo ranh giới tên miền. Cùng một nhà xuất bản có thể có một phần nằm sau 402 và một phần khác mở tự do. Cùng một trang web có thể tính phí một crawler này nhưng lại hoàn toàn phớt lờ một bot nghiên cứu khác.

Chúng tôi nghĩ rằng phản ứng thực tế của các đội ngũ kỹ thuật sẽ như thế này. Thứ nhất, hãy kiểm tra các nguồn của bạn. Nếu một phần đáng kể trong pipeline của bạn lấy dữ liệu từ Stack Overflow, Reddit, các trang tin tức lớn, hoặc bất kỳ nhà xuất bản nào trong số hàng chục nhà xuất bản đang rõ ràng hướng tới các thỏa thuận này, hãy giả định rằng mô hình truy cập sẽ thay đổi trong vòng mười hai tháng tới. Thứ hai, hãy tách biệt các nguồn có bản quyền khỏi các nguồn mở trong kiến trúc của bạn từ sớm. Một pipeline xử lý mọi nguồn giống hệt nhau sẽ rất dễ gãy khi một nửa trong số đó bắt đầu yêu cầu trả tiền và nửa còn lại thì không. Thứ ba, hãy ngừng coi robots.txt là tín hiệu duy nhất. Response 402 sẽ có ý nghĩa về mặt vận hành ngay cả khi crawler của bạn không phải là một AI agent. False positive là điều không thể tránh khỏi trong một hệ thống mới mẻ như thế này.

Điều này song hành với áp lực tuân thủ dữ liệu đào tạo từ Đạo luật AI của EU, vốn đã thúc đẩy các đội ngũ hướng tới các nguồn được theo dõi nguồn gốc rõ ràng. Pay-per-crawl chính là áp lực đó nhưng được gắn thêm một lớp thanh toán.

Nhận định thẳng thắn

Một vài điều sẽ khiến mọi người gặp khó khăn. Việc xác thực danh tính của Cloudflare dựa trên việc các bot tự đăng ký. Những bot không đăng ký, hoặc trông giống như lưu lượng truy cập dân cư (residential traffic), sẽ không kích hoạt 402 chút nào. Thay vào đó, chúng sẽ vấp phải lớp chống bot (anti-bot stack) thông thường. Đó vốn đã là con đường mà hầu hết các crawler AI hung hãn sẽ chọn. Vì vậy, pay-per-crawl chỉ hoạt động hiệu quả đối với các bot muốn tuân thủ. Những bot không muốn tuân thủ thì ngay từ đầu cũng sẽ không bao giờ tôn trọng robots.txt.

Sự thay đổi lớn hơn có thể không nằm ở bản thân chợ giao dịch. Đó là việc câu hỏi "nội dung này có sẵn để đào tạo AI không" đã trở thành một câu hỏi có câu trả lời mang tính hợp đồng thay vì một phỏng đoán dựa trên robots.txt. Các nhà xuất bản cuối cùng đã có thể thực thi. Các crawler cuối cùng đã có thể biết rõ. Vùng xám sẽ thu hẹp lại ở những nơi chợ giao dịch này vươn tới.

Những gì tiếp tục nằm trong vùng xám là mọi thứ bên ngoài nó. Những trang web nhỏ không dùng Cloudflare, các trang tổng hợp khu vực không có chiến lược AI, phần đuôi dài (long tail) của thế giới web mà không ai thèm đàm phán: những đối tượng đó không nhận được 402, và họ cũng không có được một thỏa thuận cấp phép nào. Họ giữ nguyên bất kỳ chính sách truy cập nào họ từng có trước đây, chỉ là với sự phản đối lớn tiếng hơn khi giờ đây đã có tiền lệ về việc bồi thường.

Xu hướng tiếp theo

Hai dự đoán, và chúng không phải là những dự đoán an toàn.

Một là: mười hai tháng tới sẽ chứng kiến một tầng paywall thứ hai, lần này dành cho các bot không phải AI. Cơ chế chợ giao dịch thực chất chỉ là một mã trạng thái HTTP và một lớp thanh toán. Về mặt kỹ thuật, không khó để mở rộng nó sang việc tính phí search-crawler, tính phí bot lưu trữ (archive-bot), hoặc tính phí theo dõi đối thủ cạnh tranh. Việc các nhà xuất bản có giữ vững ranh giới chỉ tính phí các crawler AI hay không phụ thuộc vào cách làn sóng tiếp theo hành xử. Trong hầu hết các năm, ranh giới đó đều bị phá vỡ.

Hai là: các phòng thí nghiệm AI sẽ tìm đường vòng để né tránh. Không phải bằng cách phớt lờ 402 (điều đó dễ bị truy vết và kiện tụng), mà bằng cách mua hàng loạt các bộ dữ liệu có bản quyền và sau đó chạy mọi thứ khác thông qua lưu lượng truy cập trông giống như người dùng thực. Cloudflare đã đang tung ra nhiều tính năng phát hiện hành vi hơn chính vì họ biết rõ điều này. Chúng tôi đã chứng kiến cuộc chạy đua vũ trang đó chuyển dịch sang các tín hiệu ở cấp độ session trong hai năm qua. Nó không kết thúc bằng một chợ giao dịch.

Câu hỏi thú vị dành cho những người xây dựng hệ thống không phải là có nên trả tiền hay không. Mà là thế giới web mở sẽ còn mở ở những nơi nào, và trong bao lâu.