Gérer la protection anti-bot
Les sites web modernes utilisent une détection de bot avancée. Ce guide explique comment FourA gère les systèmes anti-bot et comment maximiser votre taux de réussite.
Fonctionnement de la détection de bot
Les sites web utilisent plusieurs niveaux de protection :
- IP reputation : les centres de données et les IP de proxy connues sont bloqués
- Wire fingerprinting : chaque client HTTP possède une signature de handshake unique que les sites peuvent détecter
- Browser fingerprinting : JavaScript recherche des indicateurs de navigateur headless
- Analyse comportementale : modèles de request, timing et flux de navigation
- CAPTCHAs : défis visuels comme dernière ligne de défense
Les fournisseurs anti-bot courants incluent Cloudflare, DataDome, PerimeterX et Akamai Bot Manager.
Comment FourA vous aide
Requests réalistes au niveau réseau
L'endpoint unique (POST /api/single/) émet des caractéristiques de handshake qui correspondent à un vrai navigateur. Cela permet de passer les contrôles réseau les plus courants sans la surcharge liée à l'exécution d'un navigateur complet.
Activez unblocker pour injecter également des headers de navigateur réalistes (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding) :
{
"method": "GET",
"url": "https://protected-site.com/data",
"unblocker": true
}
Rendu de navigateur réel
L'endpoint de navigateur (POST /api/browser/) exécute une instance complète du navigateur Chrome. Combiné avec des correctifs anti-détection, il passe la plupart des contrôles de fingerprint basés sur JavaScript.
Rotation de proxy
L'endpoint de proxy (POST /api/proxy/) effectue une rotation automatique entre les proxies résidentiels et de centres de données. Si une IP est bloquée, la tentative suivante en utilise une autre.
Stratégie par niveau de protection
Protection faible (la plupart des sites)
Utilisez l'endpoint unique avec unblocker. La correspondance au niveau réseau est suffisante.
curl -X POST https://eu.api.foura.ai/api/single/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'
Protection moyenne (Cloudflare, WAF de base)
Utilisez l'endpoint de navigateur pour passer les défis JavaScript :
curl -X POST https://eu.api.foura.ai/api/browser/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'
Protection élevée (DataDome, PerimeterX)
Utilisez l'endpoint de proxy avec plusieurs tentatives de re-essai :
curl -X POST https://eu.api.foura.ai/api/proxy/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"maxTries": 10,
"request": {
"method": "GET",
"url": "https://heavily-protected.com/prices",
"unblocker": true
}
}'
Pour les chaînes de WAF de niveau 1 (Vercel Security Checkpoint, Cloudflare « Just a moment », Akamai Bot Manager) où vous avez besoin de la page rendue une fois le défi résolu, consultez la recette de défi WAF pour le modèle chaîné proxy → browser.
Bonnes pratiques
Commencez simplement, augmentez progressivement. Essayez d'abord l'endpoint unique. Ne passez au navigateur ou au proxy que lorsque cela est nécessaire.
Respectez les rate limits. Même avec la rotation de proxy, envoyer des centaines de requests par seconde à un seul site déclenchera la détection comportementale. Spacez vos requests d'au moins 1 à 2 secondes.
Utilisez
unblocker. Pour les requests uniques et de proxy, activezunblockerpour injecter automatiquement des headers de navigateur réalistes au lieu de définir manuellement les chaînes User-Agent.Surveillez les taux de réussite. Consultez les métriques du Dashboard pour suivre votre taux de réussite au fil du temps. Une baisse soudaine signifie généralement que le site cible a mis à jour sa protection.
Augmentez
maxTriespour les cibles difficiles. L'endpoint de proxy est configuré par défaut sur 5 tentatives, mais vous pouvez en définir jusqu'à 90 pour les sites fortement protégés.
Ce que FourA ne peut pas contourner
Certains scénarios nécessitent une gestion supplémentaire en dehors de l'API :
- Contenu protégé par authentification : FourA ne gère pas les sessions ou les cookies d'une request à l'autre (l'endpoint de navigateur prend en charge la configuration de cookies par request)
- CAPTCHAs interactifs : reCAPTCHA v3 et hCaptcha nécessitent des services de résolution
- Listes d'autorisation de pays / ASN : les sites sous licence nationale (bookmakers en ligne, certains services gouvernementaux) n'acceptent que le trafic provenant d'un ensemble restreint de FAI. La rotation de proxy n'aidera pas, vous aurez besoin d'une source de données différente.
- Sites avec restrictions légales : assurez-vous toujours que votre collecte de données est conforme aux conditions d'utilisation du site cible et aux lois applicables
Étapes suivantes
- Choisir le bon endpoint : guide de décision pour les endpoints
- Problèmes courants : résoudre les erreurs 403 et les blocages de captcha
- Endpoints API : référence complète des paramètres
- Recettes MCP : modèles de workflow incluant la chaîne de défis WAF