Справяне с anti-bot защита
Съвременните уебсайтове използват усъвършенствано засичане на ботове. Това ръководство обяснява как FourA се справя с anti-bot системите и как да увеличите максимално процента си на успех.
Как работи засичането на ботове
Уебсайтовете използват няколко слоя на защита:
- IP репутация: Центрове за данни и известни proxy IP адреси биват блокирани
- Wire fingerprinting: Всеки HTTP клиент има уникален handshake подпис, който сайтовете могат да засекат
- Browser fingerprinting: JavaScript проверява за индикатори за headless браузър
- Поведенчески анализ: Модели на request, времеви интервали и поток на навигация
- CAPTCHAs: Визуални предизвикателства като последна линия на защита
Често срещаните доставчици на anti-bot защити включват Cloudflare, DataDome, PerimeterX и Akamai Bot Manager.
Как помага FourA
Реалистични wire-level заявки
Единичният endpoint (POST /api/single/) излъчва handshake характеристики, които съвпадат с реален браузър. Това преминава най-често срещаните wire-level проверки без допълнителното натоварване от стартиране на цял браузър.
Активирайте unblocker, за да инжектирате също и реалистични браузърни headers (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding):
{
"method": "GET",
"url": "https://protected-site.com/data",
"unblocker": true
}
Рендериране с реален браузър
Браузърният endpoint (POST /api/browser/) стартира пълна инстанция на Chrome браузър. В комбинация с пачове против засичане, той преминава повечето базирани на JavaScript fingerprint проверки.
Ротация на proxy
Прокси endpoint (POST /api/proxy/) автоматично ротира през residential и data center proxies. Ако даден IP адрес бъде блокиран, следващият опит използва различен.
Стратегия според нивото на защита
Ниска защита (повечето сайтове)
Използвайте единичния endpoint с unblocker. Съвпадението на wire-level е достатъчно.
curl -X POST https://eu.api.foura.ai/api/single/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'
Средна защита (Cloudflare, базов WAF)
Използвайте браузърния endpoint за преминаване на JavaScript предизвикателства:
curl -X POST https://eu.api.foura.ai/api/browser/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'
Висока защита (DataDome, PerimeterX)
Използвайте прокси endpoint с множество опити за повторение:
curl -X POST https://eu.api.foura.ai/api/proxy/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"maxTries": 10,
"request": {
"method": "GET",
"url": "https://heavily-protected.com/prices",
"unblocker": true
}
}'
За tier-1 WAF вериги (Vercel Security Checkpoint, Cloudflare "Just a moment", Akamai Bot Manager), където се нуждаете от рендерираната страница след изчистване на предизвикателството, вижте рецептата за WAF предизвикателства за верижния модел proxy → browser.
Добри практики
Започнете просто, ескалирайте постепенно. Опитайте първо с единичния endpoint. Преминавайте към browser или proxy само при необходимост.
Уважавайте rate limits. Дори с ротация на proxy, изпращането на стотици requests в секунда към един сайт ще задейства поведенческо засичане. Разпределяйте вашите requests на интервали от поне 1 до 2 секунди.
Използвайте
unblocker. За единични и proxy requests, активирайтеunblocker, за да инжектирате автоматично реалистични браузърни headers, вместо ръчно да настройвате User-Agent низове.Следете процента на успех. Проверявайте метриките в Dashboard, за да проследявате процента си на успех във времето. Внезапен спад обикновено означава, че целевият сайт е актуализирал защитата си.
Увеличете
maxTriesза трудни цели. Прокси endpoint има по подразбиране 5 опита, но можете да зададете до 90 за силно защитени сайтове.
Какво не може да заобиколи FourA
Някои сценарии изискват допълнителна обработка извън API:
- Съдържание, защитено с вход (login): FourA не управлява сесии или cookies между отделните requests (браузърният endpoint поддържа задаване на cookies за всеки request)
- Интерактивни CAPTCHAs: reCAPTCHA v3 и hCaptcha изискват услуги за разрешаване
- Списъци с разрешени държави / ASN (allowlists): сайтове с лиценз за конкретна държава (онлайн букмейкъри, някои държавни услуги) приемат трафик само от малък набор от доставчици (ISPs). Ротацията на proxy няма да помогне, ще ви е необходим различен източник на данни.
- Сайтове със законови ограничения: Винаги се уверявайте, че събирането на данни от ваша страна съответства на условията за ползване на целевия сайт и приложимите закони
Следващи стъпки
- Избор на правилния endpoint: Ръководство за избор на endpoints
- Често срещани проблеми: Коригиране на грешки 403 и captcha блокове
- API Endpoints: Пълна документация на параметрите
- MCP Recipes: Шаблони за работни процеси, включително веригата за WAF предизвикателства