Всички публикации

JA4 и Post-Quantum TLS счупиха базовия scraper

Вашият User-Agent header вече няма значение. JA4 fingerprints класифицират ботовете с 98.6% точност, още преди да бъдат прочетени headers. Ето какво се промени през 2026 г.

TLS handshake е прагът за bot detection

98.6%.

Това е точността на класификация, която CatBoost модел постигна, използвайки само JA4 характеристики. Без headers. Без IPs. Без поведение. Само формата на TLS handshake. Научната публикация в arXiv се появи през февруари 2026 г., и резултатът не е изключение. Cloudflare, AWS, VirusTotal и Akamai използват JA4 (или неговия по-ранен братовчед JA3) в production. Ако правите scraping през 2026 г. с обикновен HTTP клиент, присъдата е била произнесена още преди вашият request да достигне до application layer.

Това е частта, която ръководствата за bot detection пропускат. Повечето публикации за заобикаляне на anti-bot защити все още се въртят около User-Agent ротация, cookies и CAPTCHAs. Това са лесните слоеве. Но TLS слоят е този, който не можете да излъжете с header.

Какво всъщност вижда JA4

JA4 е fingerprint на TLS ClientHello. Той кодира протокола (TCP или QUIC), TLS версията, наличието на SNI, подредените cipher suites, extensions, signature algorithms и ALPN. Резултатът е компактен string като t13d1516h2_8daaf6152771_e5627906d626. Два клиента, които твърдят, че са един и същ браузър, ще генерират един и същ JA4 hash. Python requests скрипт, който твърди, че е Chrome, генерира JA4, който не съществува никъде по света, освен в scrapers.

Семейството JA4 (разработено от FoxIO, същата група зад JA3) адресира най-голямата слабост на JA3: пермутацията на extensions, която Chromium въведе през 2023 г., за да наруши наивното fingerprinting. JA4 сортира extensions и ги брои, така че рандомизацията не помага. Няма лесен изход.

Akamai разкри 92-98% точност на класификация на ботове чрез cross-layer анализ. Частта с cross-layer анализа е важна. TLS сам по себе си е доминиращият сигнал, но комбинирането му с HTTP/2 frame ordering, подредба на headers и request timing намалява процента на false-positive далеч под това, което повечето scrapers могат да толерират.

Пост-квантовият обрат

Това е частта, която никой не очакваше. На 31 януари 2026 г. Akamai направи пост-квантовия key exchange по подразбиране за всички връзки. До началото на 2026 г. 57.4% от реалните връзки, инициирани от браузъри, включват X25519MLKEM768 key share. Делът на Chrome с поддръжка на PQ е около 93%. Firefox 132 е на 85%. Safari в момента го внедрява.

PQ key share е голям. 1,124 bytes срещу 36 bytes за класическия X25519. ClientHello нарасна от 300-500 bytes до над 1,400. Този растеж се вижда в JA4, при packet capture и при пасивно наблюдение на ниво WAF.

Ако вашият scraping клиент не включва PQ key share, вие твърдите нещо, което никой съвременен Chrome или Firefox не би твърдял. Два CVE от първото тримесечие на 2026 г. сигнализират точно за това несъответствие: CVE-2026-26995 (padding extension) носи 25-50% вероятност за откриване на request, а CVE-2026-27017 (несъответствие на ECH и GREASE) достига около 50%. Комбинирано в рамките на една сесия, разкриването клони към почти пълна сигурност.

Това е 12-месечен проблем, който се превръща в 3-месечен проблем. Повечето open-source scraping стекове все още не поддържат PQ-съвместим TLS. Тези, които го поддържат, изостават с седмици от реалния Chromium.

Защо proxies не решават този проблем

Разпространява се успокояваща история, че по-големите proxy pools решават съвременния bot detection. Това не е така. Инцидентът със scalping от януари 2026 г., отразен от Security Boulevard, използва 16 милиона requests през 3.9 милиона уникални IPs. Блокирането по IP беше безполезно. Защитата, която проработи, беше предимно TLS и поведенческо fingerprinting.

Икономиката на residential proxies също се срина през това тримесечие. Help Net Security съобщи през април 2026 г., че сривът на мрежата IPIDEA през януари е намалил капацитета на residential мрежите в индустрията с около 40% за една нощ. Патентната битка между Bright Data и Oxylabs (Върховният съд отхвърли жалбата на Bright Data на 23 февруари 2026 г., като делото е насрочено за 18 май) е просто странично събитие на фона на този удар върху капацитета. Купувачите, които преследват residential IPs като защита срещу fingerprinting, плащат повече за решение, което не интересува WAF.

Proxies все още имат значение, но не поради причината, която повечето хора си мислят. Географското разпределение и типът ISP оформят решенията за routing и rate-limit профилите. Те не ви помагат да оцелеете при handshake.

Какво означава това за екипите за данни

Три неща се променят, ако изграждате или купувате scraping инфраструктура през 2026 г.

Първо, TLS стекът вече е задължително изискване. Всеки клиент, за който не се направи impersonate на TLS handshake на реален браузър (PQ key share, подредба на extensions, ALPN, signature algorithms), генерира fingerprint, който се класифицира като bot с висока степен на сигурност. Обвиването на Python requests в по-добри headers не решава нищо. Транспортният слой е това, което ви издава.

Второ, откриването на headless браузъри се затегна, а не се подобри. Докладът State of Web Scraping 2026 на Browserless отчита, че разликата между headless и стандартен Chromium се увеличава. Anti-bot доставчиците са каталогизирали разликите във fingerprints и споделят информация за заплахи (threat intel) между сайтовете на клиентите си в почти реално време. Headless инстанция, която е работила през декември, може да бъде класифицирана като bot през май. Поведенческите сигнали се натрупват върху TLS, и двете са движещи се мишени.

Трето, математиката на дилемата "изграждане срещу купуване" (build-vs-buy) се промени. Поддържането на TLS fingerprint, който съответства на движеща се мишена (Chromium пуска PQ актуализации на всеки няколко седмици, подредбата на extensions се променя между минорните версии, предпочитанията за cipher suite се изменят), вече е работа на пълен работен ден. Екипи, които са отделяли 20% от времето на един инженер за поддръжка на scraper през 2024 г., сега отделят повече от половин работно място през 2026 г. Вече сме писали защо вашите web scrapers продължават да се чупят. През 2026 г. отговорът е по-често "TLS", отколкото "DOM".

Най-евтиният scraper е този, който не бива класифициран

Интересната прогноза не е дали anti-bot доставчиците ще продължат да вдигат летвата. Те ще го направят. Интересната прогноза е кои scraping инструменти ще оцелеят на пазар, където 98% точност е базовият праг за откриване.

Повечето няма да успеят. Но тези, които успеят, ще третират TLS handshake като част от request, а не като детайл от транспортния слой. И купувачите ще започнат да задават на доставчиците въпрос, който не беше в списъка за оценка преди дванадесет месеца: какъв TLS fingerprint предлагате и колко бързо го актуализирате?

Handshake решава всичко, преди request изобщо да получи шанс да представи своите аргументи.