Все статьи

JA4 и постквантовый TLS сломали базовые скреперы

Ваш заголовок User-Agent больше не имеет значения. Отпечатки JA4 классифицируют ботов с точностью 98,6% еще до чтения заголовков. Вот что изменилось в 2026 году.

TLS-рукопожатие: базовый уровень обнаружения ботов

98,6%.

Именно такой точности классификации достигла модель CatBoost, используя только признаки JA4. Никаких заголовков. Никаких IP. Никакого поведения. Только структура TLS-рукопожатия. Статья на arXiv появилась в феврале 2026 года, и этот результат не является исключением. Cloudflare, AWS, VirusTotal и Akamai используют JA4 (или его более раннюю версию JA3) в продакшене. Если в 2026 году вы занимаетесь скрепингом с помощью обычного HTTP-клиента, вердикт выносится еще до того, как ваш request достигает прикладного уровня.

Это та часть обнаружения ботов, которую авторы руководств обычно обходят стороной. Большинство публикаций об обходе антибот-систем все еще посвящены ротации User-Agent, cookies и CAPTCHA. Это простые уровни. Но уровень TLS невозможно обмануть с помощью header.

Что на самом деле видит JA4

JA4 представляет собой отпечаток TLS ClientHello. Он кодирует протокол (TCP или QUIC), версию TLS, наличие SNI, упорядоченные наборы шифров, расширения, алгоритмы подписи и ALPN. На выходе получается компактная строка вида t13d1516h2_8daaf6152771_e5627906d626. Два клиента, выдающие себя за один и тот же браузер, сгенерируют одинаковый хэш JA4. Скрипт на Python requests, выдающий себя за Chrome, создает JA4, которого не существует нигде в мире, кроме как в скреперах.

Семейство JA4 (разработанное FoxIO, той же группой, которая создала JA3) устранило главную слабость JA3: перестановку расширений, которую Chromium внедрил в 2023 году для борьбы с простым фингерпринтингом. JA4 сортирует расширения и подсчитывает их количество, поэтому рандомизация не помогает. Простых путей обхода нет.

Компания Akamai заявила о точности классификации ботов на уровне от 92% до 98% благодаря кросс-уровневому анализу. Кросс-уровневый анализ играет важную роль. TLS сам по себе является доминирующим сигналом, но его сочетание с порядком фреймов HTTP/2, порядком header и временем request снижает уровень ложных срабатываний значительно ниже предела, допустимого для большинства скреперов.

Постквантовый поворот

Этого никто не ожидал. 31 января 2026 года Akamai сделала постквантовый обмен ключами стандартом по умолчанию для всех соединений. К началу 2026 года 57,4% реальных соединений, инициированных браузерами, включают часть ключа X25519MLKEM768. Доля Chrome с поддержкой PQ составляет около 93%. Firefox 132 находится на уровне 85%. Safari внедряет эту технологию прямо сейчас.

Часть ключа PQ имеет большой размер: 1124 байта против 36 байт у классического X25519. Размер ClientHello вырос с диапазона от 300 до 500 байт до более чем 1400. Этот рост заметен в JA4, при захвате пакетов и при пассивном наблюдении на уровне WAF.

Если ваш клиент для скрепинга не включает часть ключа PQ, вы заявляете о поведении, которое не демонстрирует ни один современный Chrome или Firefox. Две уязвимости CVE из первого квартала 2026 года указывают именно на это несоответствие: CVE-2026-26995 (расширение padding) дает вероятность обнаружения от 25% до 50% на каждый request, а CVE-2026-27017 (несоответствие ECH и GREASE) дает около 50%. В рамках сессии вероятность обнаружения стремится к абсолютной уверенности.

Проблема, которая должна была решаться 12 месяцев, превращается в проблему 3 месяцев. Большинство open-source стеков для скрепинга еще не внедрили поддержку PQ-совместимого TLS. А те, что внедрили, отстают от реального Chromium на недели.

Почему proxy это не решают

Существует утешительная теория о том, что крупные пулы proxy решают проблему современного обнаружения ботов. Это не так. Инцидент со скальпингом в январе 2026 года, описанный Security Boulevard, включал 16 миллионов requests через 3,9 миллиона уникальных IP. Блокировка по IP была бесполезна. Защита, которая сработала, в основном опиралась на TLS и поведенческий фингерпринтинг.

Экономика резидентных proxy в этом квартале тоже рухнула. Как сообщил Help Net Security в апреле 2026 года, сбой в работе сети IPIDEA в январе мгновенно сократил объем резидентных адресов в индустрии примерно на 40%. Патентный спор между Bright Data и Oxylabs (Верховный суд отклонил ходатайство Bright Data 23 февраля 2026 года, а судебное разбирательство назначено на 18 мая) меркнет на фоне этого удара по инфраструктуре. Покупатели, гоняющиеся за резидентными IP для защиты от фингерпринтинга, платят больше за решение, которое WAF даже не принимает во внимание.

Proxy по-прежнему важны, но совсем не по тем причинам, о которых думает большинство. Географическое распределение и тип ISP определяют решения по маршрутизации и профили rate limit. Но они не помогут вам пройти этап рукопожатия.

Что это значит для команд по работе с данными

Если вы создаете или покупаете инфраструктуру для скрепинга в 2026 году, меняются три вещи.

Во-первых, стек TLS теперь является жестким требованием. Любой клиент, который не имитирует TLS-рукопожатие реального браузера (часть ключа PQ, порядок расширений, ALPN, алгоритмы подписи), создает отпечаток, который с высокой степенью уверенности классифицируется как бот. Обертывание Python requests в более качественные headers ничего не решает. Транспортный уровень выдает вас с головой.

Во-вторых, обнаружение headless-браузеров усложнилось, а не упростилось. В отчете Browserless «State of Web Scraping 2026» отмечается, что разрыв между headless и обычным Chromium увеличивается. Поставщики антибот-решений каталогизировали различия в отпечатках и обмениваются данными об угрозах между клиентскими сайтами практически в реальном времени. Экземпляр headless, который работал в декабре, в мае может быть классифицирован как бот. Поведенческие сигналы накладываются поверх TLS, и обе эти цели постоянно меняются.

В-третьих, изменилась математика выбора между собственной разработкой и покупкой готового решения. Поддержание отпечатка TLS в соответствии с постоянно меняющейся целью (Chromium выпускает обновления PQ каждые несколько недель, порядок расширений меняется между минорными версиями, предпочтения наборов шифров сдвигаются) теперь требует полной занятости. Команды, которые в 2024 году выделяли 20% времени одного инженера на обслуживание скреперов, в 2026 году тратят на это более половины штатной единицы. Мы уже писали ранее о том, почему веб-скреперы постоянно ломаются. В 2026 году ответом чаще становится «TLS», а не «DOM».

Самый дешевый скрепер: тот, который не попадает под классификацию

Интересный прогноз заключается не в том, будут ли поставщики антибот-решений продолжать поднимать планку. Они будут. Интересно то, какие инструменты для скрепинга выживут на рынке, где точность в 98% является базовым порогом обнаружения.

Большинство не выживет. Но те, кому это удастся, будут относиться к TLS-рукопожатию как к части request, а не как к детали транспорта. И покупатели начнут задавать поставщикам вопрос, которого не было в оценочном листе еще двенадцать месяцев назад: какой отпечаток TLS вы предоставляете и как быстро вы его обновляете?

Рукопожатие решает все еще до того, как у request появится шанс заявить о себе.