Обход защиты от ботов
Современные веб-сайты используют продвинутые системы обнаружения ботов. В этом руководстве объясняется, как FourA работает с системами защиты от ботов и как повысить показатель успешных запросов.
Как работает обнаружение ботов
Веб-сайты используют несколько уровней защиты:
- IP reputation: дата-центры и известные IP-адреса proxy блокируются
- Wire fingerprinting: каждый HTTP-клиент имеет уникальную сигнатуру handshake, которую могут обнаружить сайты
- Browser fingerprinting: JavaScript проверяет наличие признаков headless-браузера
- Behavioral analysis: шаблоны request, тайминги и логика навигации
- CAPTCHAs: визуальные проверки в качестве последнего рубежа обороны
Среди популярных провайдеров защиты от ботов можно выделить Cloudflare, DataDome, PerimeterX и Akamai Bot Manager.
Как помогает FourA
Реалистичные запросы на сетевом уровне
Одиночный endpoint (POST /api/single/) имитирует характеристики handshake, соответствующие реальному браузеру. Это позволяет проходить самые распространенные проверки сетевого уровня без затрат на запуск полноценного браузера.
Включите параметр unblocker, чтобы автоматически добавлять реалистичные browser-header (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding):
{
"method": "GET",
"url": "https://protected-site.com/data",
"unblocker": true
}
Рендеринг в реальном браузере
Браузерный endpoint (POST /api/browser/) запускает полноценный экземпляр браузера Chrome. В сочетании с патчами против обнаружения это позволяет проходить большинство проверок fingerprint на базе JavaScript.
Ротация proxy
В proxy endpoint (POST /api/proxy/) автоматически выполняется ротация резидентных и дата-центр proxy. Если один IP-адрес блокируется, для следующей попытки используется другой.
Стратегия по уровням защиты
Низкий уровень защиты (большинство сайтов)
Используйте одиночный endpoint с параметром unblocker. Соответствия на сетевом уровне будет достаточно.
curl -X POST https://eu.api.foura.ai/api/single/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'
Средний уровень защиты (Cloudflare, базовый WAF)
Используйте браузерный endpoint для прохождения проверок JavaScript:
curl -X POST https://eu.api.foura.ai/api/browser/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'
Высокий уровень защиты (DataDome, PerimeterX)
Используйте proxy endpoint с несколькими повторными попытками:
curl -X POST https://eu.api.foura.ai/api/proxy/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"maxTries": 10,
"request": {
"method": "GET",
"url": "https://heavily-protected.com/prices",
"unblocker": true
}
}'
Для цепочек WAF первого уровня (Vercel Security Checkpoint, Cloudflare "Just a moment", Akamai Bot Manager), где требуется получить отрендеренную страницу после прохождения проверки, обратитесь к рецепту обхода WAF для настройки цепочки proxy → browser.
Рекомендации
Начинайте с простого, усложняйте постепенно. Сначала попробуйте одиночный endpoint. Переходите к browser или proxy только при необходимости.
Соблюдайте rate limits. Даже при ротации proxy отправка сотен request в секунду на один сайт вызовет срабатывание поведенческого анализа. Делайте паузы между request не менее 1 или 2 секунд.
Используйте
unblocker. Для одиночных и proxy-request включайтеunblocker, чтобы автоматически добавлять реалистичные browser-header вместо ручной настройки строк User-Agent.Следите за показателем успешных запросов. Проверяйте метрики в Dashboard, чтобы отслеживать динамику успешных запросов. Внезапное падение обычно означает, что целевой сайт обновил систему защиты.
Увеличивайте
maxTriesдля сложных целей. По умолчанию для proxy endpoint установлено 5 попыток, но для сайтов с высокой степенью защиты можно задать до 90 попыток.
Что FourA не может обойти
Некоторые сценарии требуют дополнительной обработки на вашей стороне, вне API:
- Контент, защищенный авторизацией: FourA не управляет сессиями или cookie между request (браузерный endpoint поддерживает установку cookie для каждого request)
- Интерактивные CAPTCHAs: для reCAPTCHA v3 и hCaptcha требуются сторонние сервисы распознавания
- Разрешенные списки стран и ASN (allowlists): сайты с лицензированием по странам (онлайн-букмекеры, некоторые государственные службы) принимают трафик только от ограниченного набора провайдеров. Ротация proxy здесь не поможет, вам потребуется другой источник данных.
- Сайты с юридическими ограничениями: всегда проверяйте, что ваш сбор данных соответствует условиям использования целевого сайта и применимому законодательству
Дальнейшие шаги
- Выбор подходящего endpoint: руководство по выбору endpoint
- Частые проблемы: устранение ошибок 403 и блокировок captcha
- API Endpoints: полный справочник параметров
- Рецепты MCP: шаблоны рабочих процессов, включая цепочку обхода WAF