Обход защиты от ботов

Современные веб-сайты используют продвинутые системы обнаружения ботов. В этом руководстве объясняется, как FourA работает с системами защиты от ботов и как повысить показатель успешных запросов.

Как работает обнаружение ботов

Веб-сайты используют несколько уровней защиты:

  • IP reputation: дата-центры и известные IP-адреса proxy блокируются
  • Wire fingerprinting: каждый HTTP-клиент имеет уникальную сигнатуру handshake, которую могут обнаружить сайты
  • Browser fingerprinting: JavaScript проверяет наличие признаков headless-браузера
  • Behavioral analysis: шаблоны request, тайминги и логика навигации
  • CAPTCHAs: визуальные проверки в качестве последнего рубежа обороны

Среди популярных провайдеров защиты от ботов можно выделить Cloudflare, DataDome, PerimeterX и Akamai Bot Manager.

Как помогает FourA

Реалистичные запросы на сетевом уровне

Одиночный endpoint (POST /api/single/) имитирует характеристики handshake, соответствующие реальному браузеру. Это позволяет проходить самые распространенные проверки сетевого уровня без затрат на запуск полноценного браузера.

Включите параметр unblocker, чтобы автоматически добавлять реалистичные browser-header (User-Agent, Sec-Ch-Ua, Sec-Fetch-*, Accept-Encoding):

{
  "method": "GET",
  "url": "https://protected-site.com/data",
  "unblocker": true
}

Рендеринг в реальном браузере

Браузерный endpoint (POST /api/browser/) запускает полноценный экземпляр браузера Chrome. В сочетании с патчами против обнаружения это позволяет проходить большинство проверок fingerprint на базе JavaScript.

Ротация proxy

В proxy endpoint (POST /api/proxy/) автоматически выполняется ротация резидентных и дата-центр proxy. Если один IP-адрес блокируется, для следующей попытки используется другой.

Стратегия по уровням защиты

Низкий уровень защиты (большинство сайтов)

Используйте одиночный endpoint с параметром unblocker. Соответствия на сетевом уровне будет достаточно.

curl -X POST https://eu.api.foura.ai/api/single/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"method": "GET", "url": "https://news-site.com/article", "unblocker": true}'

Средний уровень защиты (Cloudflare, базовый WAF)

Используйте браузерный endpoint для прохождения проверок JavaScript:

curl -X POST https://eu.api.foura.ai/api/browser/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://protected-site.com/data", "timeout_ms": 15000}'

Высокий уровень защиты (DataDome, PerimeterX)

Используйте proxy endpoint с несколькими повторными попытками:

curl -X POST https://eu.api.foura.ai/api/proxy/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 10,
    "request": {
      "method": "GET",
      "url": "https://heavily-protected.com/prices",
      "unblocker": true
    }
  }'

Для цепочек WAF первого уровня (Vercel Security Checkpoint, Cloudflare "Just a moment", Akamai Bot Manager), где требуется получить отрендеренную страницу после прохождения проверки, обратитесь к рецепту обхода WAF для настройки цепочки proxy → browser.

Рекомендации

  1. Начинайте с простого, усложняйте постепенно. Сначала попробуйте одиночный endpoint. Переходите к browser или proxy только при необходимости.

  2. Соблюдайте rate limits. Даже при ротации proxy отправка сотен request в секунду на один сайт вызовет срабатывание поведенческого анализа. Делайте паузы между request не менее 1 или 2 секунд.

  3. Используйте unblocker. Для одиночных и proxy-request включайте unblocker, чтобы автоматически добавлять реалистичные browser-header вместо ручной настройки строк User-Agent.

  4. Следите за показателем успешных запросов. Проверяйте метрики в Dashboard, чтобы отслеживать динамику успешных запросов. Внезапное падение обычно означает, что целевой сайт обновил систему защиты.

  5. Увеличивайте maxTries для сложных целей. По умолчанию для proxy endpoint установлено 5 попыток, но для сайтов с высокой степенью защиты можно задать до 90 попыток.

Что FourA не может обойти

Некоторые сценарии требуют дополнительной обработки на вашей стороне, вне API:

  • Контент, защищенный авторизацией: FourA не управляет сессиями или cookie между request (браузерный endpoint поддерживает установку cookie для каждого request)
  • Интерактивные CAPTCHAs: для reCAPTCHA v3 и hCaptcha требуются сторонние сервисы распознавания
  • Разрешенные списки стран и ASN (allowlists): сайты с лицензированием по странам (онлайн-букмекеры, некоторые государственные службы) принимают трафик только от ограниченного набора провайдеров. Ротация proxy здесь не поможет, вам потребуется другой источник данных.
  • Сайты с юридическими ограничениями: всегда проверяйте, что ваш сбор данных соответствует условиям использования целевого сайта и применимому законодательству

Дальнейшие шаги

Обновлено: 20 мая 2026 г.