Все статьи

Обнаружение ботов стало поведенческим. Большинство парсеров нет.

Обнаружение ботов сместилось от блокировки по IP к TLS-отпечаткам, сигналам браузера и поведенческому анализу. Большинство систем парсинга ведут борьбу не на том фронте.

В январе 16 миллионов requests доказали, что блокировка по IP мертва

В январе 2026 года крупная платформа электронной коммерции подверглась скальпинг-атаке. Шестнадцать миллионов requests распределились по 3,9 миллиона уникальных IP-адресов. По-IP rate limit не смог ее остановить. Атака увенчалась успехом не из-за умного кода. Она удалась, потому что огромное количество IP сделало традиционное обнаружение бессмысленным (SecurityBoulevard, March 2026).

Этот инцидент доказал то, о чем индустрия защиты от ботов говорит уже давно: одна лишь репутация IP не позволяет отличить человека от бота. И если защитники пошли дальше, разработчикам парсеров тоже нужно двигаться вперед.

Три уровня, которые заменили блокировку по IP

Современное обнаружение ботов работает на трех уровнях. И только первый из них связан с вашим IP.

Сетевые отпечатки. Прежде чем ваш request достигнет сервера, ваш TLS пакет "Client Hello" создает сигнатуру (известную как JA3 или JA4), которая идентифицирует выполняющую request HTTP-библиотеку. Библиотека requests в Python, стандартный клиент Go, fetch в Node.js, каждая из них создает уникальный отпечаток. Системы защиты от ботов проверяют его до того, как прочитают хотя бы один header. Если ваша сигнатура TLS не соответствует реальному браузеру, вас блокируют на уровне соединения (Reddit r/programming).

Отпечатки браузера. Сейчас сайты проверяют более 300 сигналов из окружения браузера. Отрисовка Canvas, вывод WebGL, аудиоконтекст, установленные шрифты, разрешение экрана, часовой пояс, информация о GPU. Строка User-Agent, это наименее интересный сигнал в стеке. Cloudflare, Akamai и DataDome пассивно собирают эти данные с помощью JavaScript-проверок, которые выполняются перед загрузкой страницы (ScrapingBee, 2026).

Поведенческий анализ. Это самый новый уровень, и его сложнее всего подделать. Системы защиты от ботов теперь отслеживают движения мыши, скорость прокрутки, шаблоны кликов, темп ввода текста и интервалы между взаимодействиями. Настоящие люди не двигают мышь по идеально прямым линиям. Они делают паузы, промахиваются мимо кнопок, прокручивают страницу хаотично. Боты ничего этого не делают или делают все слишком идеально (r/webdev, 2026).

Большинство команд парсинга ведут борьбу не на том фронте

Неприятная правда заключается в следующем: большинство команд парсинга по-прежнему инвестируют в основном в IP-инфраструктуру. Крупные пулы proxy, резидентные IP, ротируемые шлюзы. Для этого есть свое место. Репутация IP все еще важна как один из многих сигналов.

Но покупка 10 000 резидентных IP не поможет, если ваш TLS-отпечаток кричит "скрипт на Python", а ваш headless-браузер выдает признаки автоматизации через navigator.webdriver. Вы тратите деньги не на тот уровень.

Разработчик, создавший 34 продакшн-парсера, написал об этой проблеме (Dev|Journal, March 2026): разрыв между парсингом на уровне руководств для начинающих и тем, что работает в реальной эксплуатации, определяется системами защиты от ботов, которые анализируют TLS-отпечатки и движения мыши, а не селекторы DOM. Руководства учат вас парсить HTML. Реальная эксплуатация учит вас выживать при проверках.

И ситуация только ухудшается. В отчете Browserless State of Web Scraping 2026 отмечается, что стандартные headless-браузеры блокируются чаще, чем реальные браузеры, поскольку системы защиты от ботов каталогизировали конкретные различия в отпечатках между headless и обычным Chrome. Этот разрыв не сокращается.

Если ваш парсер постоянно ломается, а вы думаете только о ротации proxy, возможно, вы чините совсем не то.

Фактор Cloudflare

Cloudflare заслуживает отдельного упоминания, поскольку они находятся по обе стороны этого перехода.

Их продукт Bot Management выполняет поведенческий анализ каждого request, оценивая посетителей по шкале от 1 до 99 на основе десятков сигналов. Turnstile (их невидимая замена CAPTCHA) динамически регулирует сложность проверки в зависимости от того, насколько похож на человека посетитель (Cloudflare docs).

В то же время Cloudflare запустила собственную инфраструктуру сканирования для ИИ. Сообщество заметило иронию (Reddit r/cybersecurity).

Что это означает на практике: сайты, защищенные Cloudflare, сложнее всего парсить в 2026 году, а за их сетью находится примерно 20% всех веб-сайтов. Если ваша стратегия парсинга не учитывает поведенческий анализ, вы потеряли пятую часть доступного веба.

Что действительно работает в 2026 году

Успешные парсеры обладают тремя общими характеристиками.

Во-первых, они соответствуют TLS-отпечаткам реальных браузеров. Инструменты вроде curl-impersonate воспроизводят точную сигнатуру TLS для Chrome или Firefox, предотвращая обнаружение до его начала. Никакая подмена header не исправит несовпадающий хэш JA3.

Во-вторых, они используют реальные (или убедительно имитирующие их) среды браузера. Не headless Chrome со стандартными настройками. Настоящие экземпляры браузера с согласованными отпечатками, которые соответствуют заявленному User-Agent.

В-третьих, для защищенных сайтов они добавляют имитацию человеческого поведения. Случайных задержек недостаточно. Интервалы между действиями должны соответствовать реалистичным распределениям, а траектории движения мыши должны содержать изгибы и колебания, которые выглядят естественно.

Таким образом, архитектура изменилась. Дело не в количестве IP. Дело в том, чтобы сделать каждый request неотличимым от действий реального человека в Chrome.

Гонка вооружений в сфере обнаружения ускоряется

Поставщики решений по защите от ботов начали обмениваться данными об угрозах между своими клиентами в режиме реального времени. Когда один сайт фиксирует новый шаблон бота, все остальные сайты в сети узнают об этом в течение нескольких минут (SecurityBoulevard, March 2026). Это принципиальное отличие от старой модели, в которой защита каждого сайта работала независимо.

Мы считаем, что это приведет к постоянному росту стоимости собственной инфраструктуры парсинга. Каждый новый сигнал обнаружения требует времени инженеров на противодействие, и этот цикл ускоряется. Команды, которые решают проблему обнаружения на уровне инфраструктуры (smart proxy routing, отпечатки браузера, сопоставление TLS) будут работать эффективнее тех, кто продолжает пытаться решить проблему простым увеличением количества IP.

Вопрос не в том, нужно ли вам больше proxy. Вопрос в том, выглядят ли ваши requests человеческими еще до того, как они достигнут целевого сервера.