Umgang mit Anti-Bot-Schutz
Moderne Websites nutzen fortschrittliche Bot-Erkennung. Diese Anleitung erklärt, wie FourA mit Anti-Bot-Systemen umgeht und wie du deine Erfolgsquote maximierst.
Wie Bot-Erkennung funktioniert
Websites nutzen mehrere Schutzebenen:
- IP-Reputation: Rechenzentren und bekannte Proxy-IPs werden blockiert
- Wire-Fingerprinting: Jeder HTTP-Client hat eine eindeutige Handshake-Signatur, die Websites erkennen können
- Browser-Fingerprinting: JavaScript prüft auf Headless-Browser-Indikatoren
- Verhaltensanalyse: Request-Muster, Timing und Navigationsfluss
- CAPTCHAs: Visuelle Abfragen als letzte Verteidigungslinie
Zu den bekannten Anti-Bot-Anbietern gehören Cloudflare, DataDome, PerimeterX und Akamai Bot Manager.
Wie FourA hilft
Realistische Requests auf Wire-Ebene
Der Single-Endpoint (POST /api/single/) sendet Handshake-Eigenschaften, die einem echten Browser entsprechen. Dies besteht die gängigsten Prüfungen auf Wire-Ebene ohne den Overhead eines vollständigen Browsers.
Aktiviere unblocker, um zusätzlich realistische Browser-Header zu injizieren (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding):
{
"method": "GET",
"url": "https://protected-site.com/data",
"unblocker": true
}
Echtes Browser-Rendering
Der Browser-Endpoint (POST /api/browser/) führt eine vollständige Chrome-Browserinstanz aus. In Kombination mit Anti-Erkennungs-Patches besteht er die meisten JavaScript-basierten Fingerprint-Prüfungen.
Proxy-Rotation
Der Proxy-Endpoint (POST /api/proxy/) rotiert automatisch durch Residential- und Rechenzentrum-Proxys. Wenn eine IP blockiert wird, nutzt der nächste Versuch eine andere.
Strategie nach Schutzstufe
Niedriger Schutz (die meisten Websites)
Nutze den Single-Endpoint mit unblocker. Die Übereinstimmung auf Wire-Ebene reicht aus.
curl -X POST https://eu.api.foura.ai/api/single/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'
Mittlerer Schutz (Cloudflare, Basis-WAF)
Nutze den Browser-Endpoint, um JavaScript-Challenges zu bestehen:
curl -X POST https://eu.api.foura.ai/api/browser/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'
Hoher Schutz (DataDome, PerimeterX)
Nutze den Proxy-Endpoint mit mehreren Wiederholungsversuchen:
curl -X POST https://eu.api.foura.ai/api/proxy/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"maxTries": 10,
"request": {
"method": "GET",
"url": "https://heavily-protected.com/prices",
"unblocker": true
}
}'
Für Tier-1-WAF-Ketten (Vercel Security Checkpoint, Cloudflare "Just a moment", Akamai Bot Manager), bei denen du die gerenderte Seite nach dem Lösen der Challenge benötigst, siehe das WAF-Challenge-Rezept für das verkettete Proxy-zu-Browser-Muster.
Best Practices
Einfach starten, schrittweise steigern. Versuche zuerst den Single-Endpoint. Wechsle erst zu Browser oder Proxy, wenn nötig.
Rate-Limits beachten. Selbst mit Proxy-Rotation löst das Senden von Hunderten Requests pro Sekunde an eine einzelne Website die Verhaltenserkennung aus. Lasse mindestens 1 bis 2 Sekunden Abstand zwischen deinen Requests.
Nutze
unblocker. Aktiviere bei Single- und Proxy-Requestsunblocker, um automatisch realistische Browser-Header zu injizieren, anstatt User-Agent-Strings manuell zu setzen.Erfolgsquoten überwachen. Überprüfe die Metriken im Dashboard, um deine Erfolgsquote im Zeitverlauf zu verfolgen. Ein plötzlicher Abfall bedeutet meist, dass die Zielseite ihren Schutz aktualisiert hat.
maxTriesbei schwierigen Zielen erhöhen. Der Proxy-Endpoint ist standardmäßig auf 5 Versuche eingestellt, aber du kannst für stark geschützte Websites bis zu 90 festlegen.
Was FourA nicht umgehen kann
Einige Szenarien erfordern eine zusätzliche Handhabung außerhalb der API:
- Durch Login geschützte Inhalte: FourA verwaltet keine Sessions oder Cookies über Requests hinweg (der Browser-Endpoint unterstützt das Setzen von Cookies pro Request)
- Interaktive CAPTCHAs: reCAPTCHA v3 und hCaptcha erfordern Lösungsdienste
- Länder- / ASN-Allowlists: Für bestimmte Länder lizenzierte Websites (Online-Buchmacher, einige Regierungsdienste) akzeptieren nur Traffic von einer kleinen Auswahl an ISPs. Proxy-Rotation hilft hier nicht, du benötigst eine andere Datenquelle.
- Websites mit rechtlichen Einschränkungen: Stelle stets sicher, dass deine Datenerfassung den Nutzungsbedingungen der Zielseite und den geltenden Gesetzen entspricht
Nächste Schritte
- Den richtigen Endpoint wählen: Entscheidungshilfe für Endpoints
- Häufige Probleme: Behebung von 403-Fehlern und CAPTCHA-Blockaden
- API-Endpoints: Vollständige Parameter-Referenz
- MCP-Rezepte: Workflow-Vorlagen inklusive der WAF-Challenge-Kette