Xử lý bảo vệ anti-bot

Các trang web hiện đại sử dụng các hệ thống phát hiện bot tiên tiến. Hướng dẫn này giải thích cách FourA xử lý các hệ thống anti-bot và cách tối đa hóa tỷ lệ thành công của bạn.

Cách thức hoạt động của hệ thống phát hiện bot

Các trang web sử dụng nhiều lớp bảo vệ:

  • Danh tiếng IP: Các trung tâm dữ liệu và các IP proxy đã biết sẽ bị chặn
  • Wire fingerprinting: Mỗi HTTP client có một chữ ký handshake duy nhất mà các trang web có thể phát hiện
  • Browser fingerprinting: JavaScript kiểm tra các dấu hiệu của trình duyệt headless
  • Phân tích hành vi: Các mẫu request, thời gian và luồng điều hướng
  • CAPTCHA: Các thử thách hình ảnh như một hàng rào phòng thủ cuối cùng

Các nhà cung cấp giải pháp anti-bot phổ biến bao gồm Cloudflare, DataDome, PerimeterX và Akamai Bot Manager.

Cách FourA hỗ trợ

Request cấp độ đường truyền thực tế

Endpoint đơn (POST /api/single/) phát ra các đặc tính handshake khớp với một trình duyệt thực tế. Điều này giúp vượt qua các kiểm tra cấp độ đường truyền phổ biến nhất mà không tốn tài nguyên vận hành một trình duyệt đầy đủ.

Bật unblocker để tự động chèn các header trình duyệt thực tế (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding):

{
  "method": "GET",
  "url": "https://protected-site.com/data",
  "unblocker": true
}

Render bằng trình duyệt thực

Endpoint trình duyệt (POST /api/browser/) chạy một phiên bản trình duyệt Chrome đầy đủ. Kết hợp với các bản vá chống phát hiện, nó vượt qua hầu hết các kiểm tra fingerprint dựa trên JavaScript.

Xoay vòng Proxy

Endpoint proxy (POST /api/proxy/) tự động xoay vòng qua các proxy dân cư và trung tâm dữ liệu. Nếu một IP bị chặn, lượt thử tiếp theo sẽ sử dụng một IP khác.

Chiến lược theo cấp độ bảo vệ

Bảo vệ mức độ thấp (hầu hết các trang web)

Sử dụng endpoint đơn với unblocker. Sự trùng khớp ở cấp độ đường truyền là đủ.

curl -X POST https://eu.api.foura.ai/api/single/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'

Bảo vệ mức độ trung bình (Cloudflare, WAF cơ bản)

Sử dụng endpoint trình duyệt để vượt qua các thử thách JavaScript:

curl -X POST https://eu.api.foura.ai/api/browser/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'

Bảo vệ mức độ cao (DataDome, PerimeterX)

Sử dụng endpoint proxy với nhiều lượt thử lại:

curl -X POST https://eu.api.foura.ai/api/proxy/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 10,
    "request": {
      "method": "GET",
      "url": "https://heavily-protected.com/prices",
      "unblocker": true
    }
  }'

Đối với các chuỗi WAF tier-1 (Vercel Security Checkpoint, Cloudflare "Just a moment", Akamai Bot Manager) nơi bạn cần trang đã render sau khi vượt qua thử thách, hãy xem WAF challenge recipe để biết mô hình chuỗi proxy → browser.

Thực hành tốt nhất

  1. Bắt đầu đơn giản, nâng cấp dần dần. Hãy thử endpoint đơn trước. Chỉ chuyển sang trình duyệt hoặc proxy khi cần thiết.

  2. Tôn trọng rate limit. Ngay cả khi xoay vòng proxy, việc gửi hàng trăm request mỗi giây đến một trang web duy nhất sẽ kích hoạt tính năng phát hiện hành vi. Hãy giãn cách các request của bạn ít nhất từ 1 đến 2 giây.

  3. Sử dụng unblocker. Đối với các request đơn và proxy, hãy bật unblocker để tự động chèn các header trình duyệt thực tế thay vì thiết lập chuỗi User-Agent thủ công.

  4. Theo dõi tỷ lệ thành công. Kiểm tra các chỉ số trên Dashboard để theo dõi tỷ lệ thành công của bạn theo thời gian. Sự sụt giảm đột ngột thường có nghĩa là trang web mục tiêu đã cập nhật hệ thống bảo vệ của họ.

  5. Tăng maxTries cho các mục tiêu khó. Endpoint proxy mặc định là 5 lượt thử, nhưng bạn có thể thiết lập tối đa 90 lượt cho các trang web được bảo vệ nghiêm ngặt.

Những gì FourA không thể vượt qua

Một số kịch bản yêu cầu xử lý bổ sung bên ngoài API:

  • Nội dung được bảo vệ bằng đăng nhập: FourA không quản lý session hoặc cookie giữa các request (endpoint trình duyệt hỗ trợ thiết lập cookie cho mỗi request)
  • CAPTCHA tương tác: reCAPTCHA v3 và hCaptcha yêu cầu các dịch vụ giải mã
  • Danh sách cho phép theo quốc gia / ASN: các trang web được cấp phép theo quốc gia (nhà cái trực tuyến, một số dịch vụ chính phủ) chỉ chấp nhận lưu lượng truy cập từ một nhóm nhỏ các ISP. Xoay vòng proxy sẽ không có tác dụng; bạn sẽ cần một nguồn dữ liệu khác.
  • Các trang web có hạn chế pháp lý: Luôn đảm bảo việc thu thập dữ liệu của bạn tuân thủ các điều khoản dịch vụ của trang web mục tiêu và luật pháp hiện hành

Các bước tiếp theo

Cập nhật: 20 tháng 5, 2026