Obsługa zabezpieczeń anti-bot
Nowoczesne strony internetowe korzystają z zaawansowanego wykrywania botów. Ten przewodnik wyjaśnia, jak FourA radzi sobie z systemami anti-bot i jak zmaksymalizować wskaźnik sukcesu.
Jak działa wykrywanie botów
Strony internetowe korzystają z kilku warstw ochrony:
- Reputacja IP: Adresy IP centrów danych i znanych serwerów proxy są blokowane
- Wire fingerprinting: Każdy klient HTTP posiada unikalną sygnaturę handshake, którą strony mogą wykryć
- Browser fingerprinting: JavaScript szuka śladów wskazujących na przeglądarki headless
- Analiza behawioralna: Wzorce requestów, czas reakcji i przepływ nawigacji
- CAPTCHAs: Wyzwania wizualne jako ostatnia linia obrony
Do popularnych dostawców rozwiązań anti-bot należą Cloudflare, DataDome, PerimeterX oraz Akamai Bot Manager.
Jak pomaga FourA
Realistyczne requesty na poziomie sieciowym (wire-level)
Pojedynczy endpoint (POST /api/single/) generuje charakterystykę handshake pasującą do prawdziwej przeglądarki. Pozwala to przejść najczęstsze testy na poziomie sieciowym (wire-level) bez narzutu związanego z uruchamianiem pełnej przeglądarki.
Włącz unblocker, aby wstrzykiwać również realistyczne nagłówki (headers) przeglądarki (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding):
{
"method": "GET",
"url": "https://protected-site.com/data",
"unblocker": true
}
Renderowanie w prawdziwej przeglądarce
Endpoint browser (POST /api/browser/) uruchamia pełną instancję przeglądarki Chrome. W połączeniu z łatkami antydetekcyjnymi pozwala to ominąć większość testów fingerprint opartych na JavaScript.
Rotacja proxy
Endpoint proxy (POST /api/proxy/) automatycznie rotuje między domowymi (residential) a centrowymi (data center) adresami proxy. Jeśli jedno IP zostanie zablokowane, kolejna próba użyje innego.
Strategia zależnie od poziomu ochrony
Niska ochrona (większość stron)
Użyj pojedynczego endpointu z włączonym unblocker. Dopasowanie na poziomie sieciowym (wire-level) w zupełności wystarczy.
curl -X POST https://eu.api.foura.ai/api/single/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'
Średnia ochrona (Cloudflare, podstawowy WAF)
Użyj endpointu browser, aby przejść wyzwania JavaScript:
curl -X POST https://eu.api.foura.ai/api/browser/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'
Wysoka ochrona (DataDome, PerimeterX)
Użyj endpointu proxy z wieloma próbami ponowienia:
curl -X POST https://eu.api.foura.ai/api/proxy/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"maxTries": 10,
"request": {
"method": "GET",
"url": "https://heavily-protected.com/prices",
"unblocker": true
}
}'
W przypadku łańcuchów WAF poziomu tier-1 (Vercel Security Checkpoint, Cloudflare "Just a moment", Akamai Bot Manager), gdzie potrzebujesz wyrenderowanej strony po rozwiązaniu wyzwania, zobacz przepis na wyzwania WAF opisujący wzorzec łączony proxy → browser.
Najlepsze praktyki
Zacznij od prostych rozwiązań, stopniowo zwiększaj poziom. Najpierw wypróbuj pojedynczy endpoint. Przełączaj się na browser lub proxy tylko wtedy, gdy jest to konieczne.
Szanuj rate limity. Nawet przy rotacji proxy, wysyłanie setek requestów na sekundę do jednej witryny uruchomi detekcję behawioralną. Zachowaj odstęp co najmniej 1 do 2 sekund między requestami.
Używaj
unblocker. W przypadku requestów single i proxy włączunblocker, aby automatycznie wstrzykiwać realistyczne nagłówki przeglądarki, zamiast ręcznie ustawiać ciągi User-Agent.Monitoruj wskaźniki sukcesu. Sprawdzaj metryki w Dashboardzie, aby śledzić skuteczność w czasie. Nagły spadek zazwyczaj oznacza, że docelowa strona zaktualizowała swoje zabezpieczenia.
Zwiększ
maxTriesdla trudnych celów. Endpoint proxy domyślnie wykonuje 5 prób, ale dla silnie zabezpieczonych stron możesz ustawić nawet do 90.
Czego FourA nie potrafi obejść
Niektóre scenariusze wymagają dodatkowej obsługi poza API:
- Treści chronione logowaniem: FourA nie zarządza sesjami ani plikami cookie między requestami (endpoint browser obsługuje ustawianie plików cookie dla pojedynczego requestu)
- Interaktywne CAPTCHAs: reCAPTCHA v3 i hCaptcha wymagają zewnętrznych usług rozwiązujących (solving services)
- Allowlisty krajów / ASN: strony z licencją krajową (bukmacherzy internetowi, niektóre usługi rządowe) akceptują ruch tylko z wąskiej grupy dostawców internetu (ISP). Rotacja proxy tutaj nie pomoże, potrzebujesz innego źródła danych.
- Strony z ograniczeniami prawnymi: Zawsze upewnij się, że zbieranie danych jest zgodne z regulaminem docelowej witryny i obowiązującym prawem
Kolejne kroki
- Wybór odpowiedniego endpointu: Przewodnik decyzyjny dotyczący endpointów
- Typowe problemy: Jak radzić sobie z błędami 403 i blokadami captcha
- Endpointy API: Pełna dokumentacja parametrów
- Przepisy MCP: Szablony przepływów pracy (workflows), w tym łańcuch wyzwań WAF