Web Scraping Tarpits: Ai Thực Sự Bị Sập Bẫy

Các Trang Web Đang Đặt Bẫy Cho AI Crawler

Một công cụ có tên Nepenthes đã trở nên phổ biến rộng rãi vào đầu năm 2025. Nó tạo ra các mê cung vô tận gồm các trang web giả mạo, mỗi trang liên kết đến nhiều trang giả mạo khác, được thiết kế để bẫy các crawler vào một vòng lặp không thể thoát ra. Văn bản trên những trang đó là gì? Những chuỗi ký tự vô nghĩa được tạo ra bằng thuật toán, được thiết kế để làm ô nhiễm các tập dữ liệu huấn luyện AI bằng rác.

Nepenthes không phải là duy nhất. Các dự án như Locaine và một danh sách ngày càng tăng các "tarpit" mã nguồn mở đã xuất hiện trên GitHub, mỗi dự án đều có cùng một thông điệp: nếu các công ty AI không tôn trọng robots.txt, các chủ sở hữu trang web sẽ đáp trả bằng thuốc độc.

Động lực này là hoàn toàn hợp lý. Một nghiên cứu học thuật trên arXiv cho thấy tỷ lệ chặn AI trong số các trang web uy tín đã tăng vọt từ 23% vào tháng 9 năm 2023 lên gần 60% vào tháng 5 năm 2025. Phân tích của BuzzStream cho thấy 79% các trang tin tức hàng đầu hiện đang chặn các bot huấn luyện AI thông qua robots.txt. Và báo cáo của Cloudflare Radar chỉ ra rằng 75% lưu lượng truy cập web liên quan đến AI vào giữa năm 2025 được tạo ra cho mục đích huấn luyện, chứ không phải tìm kiếm hay suy luận.

Nhưng các tarpit không kiểm tra thông tin xác thực. Chúng không hỏi tại sao bạn lại crawl dữ liệu. Chúng bẫy bất kỳ thứ gì có vẻ tự động.

Ai Thực Sự Bị Sập Bẫy

Các mục tiêu dự kiến là rất rõ ràng: GPTBot, ClaudeBot, các crawler của công ty AI đang thu thập dữ liệu web mở cho dữ liệu huấn luyện. Vấn đề là các tarpit không thể phân biệt được sự khác biệt giữa crawler của OpenAI và script theo dõi giá của bạn.

Các tarpit phát hiện các mẫu request tự động. Nếu scraper của bạn theo dõi các liên kết một cách có hệ thống, truy cập các trang ở các khoảng thời gian nhất quán, hoặc bỏ qua việc thực thi JavaScript (cách mà hầu hết các crawler huấn luyện AI hoạt động), nó sẽ trông giống như một mục tiêu. Chiếc bẫy không quan tâm bạn là một đội ngũ thương mại điện tử 10 người đang theo dõi giá của đối thủ cạnh tranh. Nó chỉ thấy lưu lượng truy cập có dạng bot và bắt đầu phân phối các trang giả mạo.

Đây không chỉ là lý thuyết. Nghiên cứu từ Rutgers và Wharton cho thấy các trang web chặn AI crawler đã giảm 23.1% tổng lưu lượng truy cập và giảm 13.9% lưu lượng truy cập từ con người. Thái độ chặn quyết liệt này không chỉ ngăn chặn các scraper AI. Nó còn làm tổn hại đến khả năng hiển thị của chính trang web đó.

Và các tarpit còn đi xa hơn: chúng chủ động làm lãng phí tài nguyên tính toán, lưu trữ và băng thông của crawler trong khi cung cấp dữ liệu làm suy giảm chất lượng của bất kỳ mô hình hoặc cơ sở dữ liệu nào mà nó đang xây dựng.

Các Cấp Độ Leo Thang

Robots.txt luôn là một thỏa thuận mang tính tự nguyện. Nó hoạt động hiệu quả khi mọi người đều tuân thủ các quy tắc. Khi các công ty AI lớn bắt đầu phớt lờ nó (hoặc tìm cách diễn giải sáng tạo giữa "crawl để tìm kiếm" và "crawl để huấn luyện"), các chủ sở hữu trang web đã leo thang hành động.

Mô hình diễn ra như sau:

Chặn bằng robots.txt: yêu cầu lịch sự
Lọc User-agent: chặn các chữ ký AI crawler đã biết
Phát hiện hành vi: bắt các crawler chưa biết thông qua các mẫu request của chúng
Tarpits: các biện pháp đối phó chủ động làm lãng phí tài nguyên và đầu độc dữ liệu

Mỗi bước sẽ chặn được nhiều mối đe dọa hơn. Mỗi bước cũng chặn cả các lưu lượng truy cập hợp pháp nhiều hơn. Đến bước thứ tư, bạn đang coi tất cả các truy cập tự động là thù địch. Vì vậy, một scraper thu thập giá sản phẩm công khai cho một dịch vụ so sánh sẽ vấp phải những chiếc bẫy tương tự như GPTBot đang thu thập dữ liệu khi chưa được phép.

Những Gì Các Đội Ngũ Dữ Liệu Nên Làm Ngay Bây Giờ

Nếu bạn đang vận hành việc thu thập dữ liệu ở bất kỳ quy mô nào, các tarpit sẽ thay đổi luật chơi. Một số điều hiện nay trở nên quan trọng hơn trước đây.

Luôn tôn trọng robots.txt. Điều này nghe có vẻ cơ bản, nhưng hiện tại nó là điều kiện bắt buộc tối thiểu. Các trang web sử dụng robots.txt như một bộ lọc bước đầu. Phớt lờ nó, và bạn đang tự xếp mình vào cùng nhóm với các bot huấn luyện AI khơi mào cho toàn bộ phản ứng tarpit này.

Đừng để bị giống như một crawler huấn luyện. Các crawler huấn luyện AI có các chữ ký dễ đoán: chúng theo dõi mọi liên kết, request các trang với số lượng lớn, bỏ qua JavaScript và duy trì các khoảng thời gian đều đặn. Nếu scraper của bạn cũng làm như vậy, hệ thống phát hiện hành vi sẽ gắn cờ nó. Hãy thay đổi thời gian của bạn. Chỉ tải những gì bạn cần. Thực thi JavaScript khi trang web yêu cầu. Chúng tôi đã viết về những nguyên nhân khiến scraper bị chặn trong bài viết Tại Sao Web Scraper Của Bạn Liên Tục Bị Lỗi.

Xác thực dữ liệu đầu vào. Các tarpit cung cấp dữ liệu rác trông có vẻ hợp lý. Nếu bạn không kiểm tra các response trong pipeline của mình, bạn có thể đang lưu trữ văn bản do Markov tạo ra dưới dạng mô tả sản phẩm thực tế. Hãy xây dựng quy trình xác thực như một bước cốt lõi, chứ không phải là một ý nghĩ nảy ra sau cùng.

Đầu tư vào hạ tầng request của bạn. Kịch bản cũ (xoay vòng IP, giải CAPTCHA, thử lại khi thất bại) là không đủ. Các hệ thống chống bot hiện đại phân tích TLS fingerprint, hành vi trình duyệt và các mẫu session. Smart proxy routing có thể giúp ích, nhưng sự chuyển dịch thực sự là từ phát hiện ở cấp độ IP sang cấp độ hành vi. Nếu bạn đang scrape các trang web sử dụng nhiều JavaScript, thu thập dựa trên trình duyệt ngày càng trở thành cách tiếp cận đáng tin cậy duy nhất.

Khoảng Cách Tiếp Cận Đang Ngày Càng Rộng Hơn

Chúng tôi nghĩ rằng thế giới web đang hướng tới một sự phân tách rõ rệt. Một bên: các trang web kiếm tiền từ dữ liệu thông qua các thỏa thuận truy cập trả phí, quan hệ đối tác API và việc crawl dữ liệu được cấp phép. Bên còn lại: các trang web coi tất cả các truy cập tự động là một mối đe dọa và triển khai các biện pháp đối phó ngày càng quyết liệt.

Đối với các đội ngũ dữ liệu, điều này có nghĩa là chi phí thu thập sẽ tiếp tục tăng. Không phải vì công nghệ khó xây dựng hơn, mà vì môi trường trở nên thù địch hơn. Những đội ngũ đầu tư vào các phương pháp scraping có trách nhiệm và minh bạch sẽ duy trì được quyền truy cập của họ. Những đội ngũ trông giống như các bot huấn luyện sẽ bị sập bẫy, bị đầu độc dữ liệu và bị khóa bên ngoài.

Các tarpit sẽ không biến mất. Câu hỏi dành cho đội ngũ của bạn không phải là có nên lo lắng về chúng hay không. Mà là liệu hạ tầng của bạn có thể phát hiện ra sự khác biệt giữa một trang thực và một chiếc bẫy trước khi dữ liệu đó đi vào cơ sở dữ liệu của bạn hay không.