Wszystkie wpisy

JA4 i Post-Quantum TLS popsuły proste scrapery

Twój nagłówek User-Agent nie ma już znaczenia. Fingerprinty JA4 klasyfikują boty ze skutecznością 98,6%, zanim nagłówki zostaną w ogóle odczytane. Oto co zmieniło się w 2026 roku.

Handshake TLS to fundament detekcji botów

98,6%.

To dokładność klasyfikacji, jaką model CatBoost osiągnął, używając wyłącznie cech JA4. Żadnych nagłówków. Żadnych adresów IP. Żadnego zachowania. Tylko kształt handshake'u TLS. Artykuł na arXiv pojawił się w lutym 2026 roku, a ten wynik to nie żaden wyjątek. Cloudflare, AWS, VirusTotal i Akamai korzystają produkcyjnie z JA4 (lub jego starszego kuzyna JA3). Jeśli w 2026 roku scrapujesz za pomocą zwykłego klienta HTTP, wyrok zapadł, zanim Twój request dotarł do warstwy aplikacji.

To jest ta część detekcji botów, którą pomijają poradniki. Większość wpisów o omijaniu zabezpieczeń anti-bot wciąż kręci się wokół rotacji User-Agent, cookies i CAPTCHA. To są te łatwe warstwy. Ale warstwy TLS nie da się oszukać nagłówkiem.

Co tak naprawdę widzi JA4

JA4 to fingerprint komunikatu TLS ClientHello. Koduje on protokół (TCP lub QUIC), wersję TLS, obecność SNI, uporządkowane zestawy szyfrów, rozszerzenia, algorytmy podpisów oraz ALPN. Wynikiem jest kompaktowy ciąg znaków, taki jak t13d1516h2_8daaf6152771_e5627906d626. Dwa klienty podające się za tę samą przeglądarkę wygenerują taki sam hash JA4. Skrypt w Pythonie z requests podający się za Chrome wygeneruje JA4, który nie istnieje nigdzie indziej na świecie poza scraperami.

Rodzina JA4 (stworzona przez FoxIO, tę samą grupę, która stoi za JA3) zaradziła największej słabości JA3: permutacji rozszerzeń, którą Chromium wprowadziło w 2023 roku, aby uniemożliwić naiwne fingerprintowanie. JA4 sortuje rozszerzenia i je zlicza, więc ich randomizacja w niczym nie pomaga. Nie ma tu prostego wyjścia awaryjnego.

Akamai ujawniło skuteczność klasyfikacji botów na poziomie 92-98% dzięki analizie wielowarstwowej. Wielowarstwowość ma znaczenie. Sam TLS jest dominującym sygnałem, ale połączenie go z kolejnością ramek HTTP/2, kolejnością nagłówków i timingiem requestów spycha odsetek false-positive znacznie poniżej poziomu, który większość scraperów jest w stanie tolerować.

Postkwantowy zwrot akcji

Tego nikt się nie spodziewał. 31 stycznia 2026 roku Akamai uczyniło postkwantową wymianę kluczy domyślną dla wszystkich połączeń. Do początku 2026 roku 57,4% rzeczywistych połączeń inicjowanych przez przeglądarki zawierało key share X25519MLKEM768. Udział Chrome z obsługą PQ wynosi około 93%. Firefox 132 jest na poziomie 85%. Safari właśnie to wdraża.

Key share PQ jest duży. To 1124 bajty w porównaniu do 36 bajtów dla klasycznego X25519. Rozmiar ClientHello wzrósł z 300-500 bajtów do ponad 1400. Ten wzrost widać w JA4, w przechwytywanych pakietach i przy pasywnej obserwacji na poziomie WAF.

Jeśli Twój klient do scrapowania nie zawiera key share PQ, deklarujesz coś, czego nie zrobiłby żaden współczesny Chrome ani Firefox. Dwie podatności CVE z pierwszego kwartału 2026 roku wskazują dokładnie na tę niezgodność: CVE-2026-26995 (padding extension) niesie ze sobą 25-50% prawdopodobieństwa wykrycia na każdy request, a CVE-2026-27017 (niezgodność ECH i GREASE) plasuje się w okolicach 50%. W skali całej sesji ryzyko wykrycia rośnie niemal do pewności.

To problem, który z 12-miesięcznego stał się 3-miesięcznym. Większość open-source'owych stacków do scrapowania nie wdrożyła jeszcze TLS zgodnego z PQ. Te, które to zrobiły, są o tygodnie w tyle za prawdziwym Chromium.

Dlaczego proxy tego nie naprawią

Krąży pocieszająca teoria, że większe pule proxy rozwiązują problem współczesnej detekcji botów. Wcale nie. Styczniowy incydent ze scalpingiem z 2026 roku opisany przez Security Boulevard wykorzystał 16 milionów requestów z 3,9 miliona unikalnych adresów IP. Blokowanie po IP było bezużyteczne. Obroną, która zadziałała, były głównie TLS i fingerprinting behawioralny.

W tym kwartale załamała się również ekonomia residential proxy. Help Net Security poinformowało w kwietniu 2026 roku, że zakłócenie działania sieci IPIDEA w styczniu z dnia na dzień zmniejszyło globalne zasoby residential proxy o około 40%. Wojna patentowa między Bright Data a Oxylabs (Sąd Najwyższy odrzucił wniosek Bright Data 23 lutego 2026 roku, a rozprawę wyznaczono na 18 maja) to tylko poboczny wątek przy tak potężnym uderzeniu w zasoby. Klienci szukający residential IP jako ochrony przed fingerprintingiem płacą więcej za rozwiązanie, które dla WAF nie ma żadnego znaczenia.

Proxy wciąż mają znaczenie, ale nie z powodów, o których myśli większość ludzi. Dystrybucja geograficzna i typ ISP wpływają na decyzje o routingu i profile rate limitów. Nie pomogą Ci jednak przetrwać handshake'u.

Co to oznacza dla zespołów zajmujących się danymi

W 2026 roku zmieniają się trzy rzeczy, jeśli budujesz lub kupujesz infrastrukturę do scrapowania.

Po pierwsze, stos TLS jest teraz twardym wymogiem. Każdy klient, który nie imituje handshake'u TLS prawdziwej przeglądarki (key share PQ, kolejność rozszerzeń, ALPN, algorytmy podpisów), generuje fingerprint klasyfikowany jako bot z wysokim prawdopodobieństwem. Obudowanie pythonowego requests lepszymi nagłówkami nic nie daje. To warstwa transportowa Cię zdradza.

Po drugie, wykrywanie przeglądarek headless stało się jeszcze skuteczniejsze, a nie słabsze. Raport State of Web Scraping 2026 od Browserless wskazuje, że przepaść między headless a zwykłym Chromium się powiększa. Dostawcy rozwiązań anti-bot skatalogowali różnice w fingerprintach i wymieniają się informacjami o zagrożeniach między witrynami klientów w czasie niemal rzeczywistym. Instancja headless, która działała w grudniu, w maju może zostać sklasyfikowana jako bot. Sygnały behawioralne nakładają się na TLS, a oba te elementy to ruchome cele.

Po trzecie, kalkulacja build-vs-buy uległa zmianie. Utrzymanie fingerprintu TLS, który nadąża za ruchomym celem (Chromium wypuszcza aktualizacje PQ co kilka tygodni, kolejność rozszerzeń zmienia się między mniejszymi wersjami, a preferencje cipher suite ulegają przesunięciom), to obecnie praca na pełen etat. Zespoły, które w 2024 roku przeznaczały 20% czasu jednego inżyniera na utrzymanie scraperów, w 2026 roku poświęcają na to ponad pół etatu. Już wcześniej pisaliśmy o tym, dlaczego scrapery ciągle się psują. W 2026 roku odpowiedzią jest częściej "TLS" niż "DOM".

Najtańszy scraper to ten, który nie zostaje sklasyfikowany

Ciekawą prognozą nie jest to, czy dostawcy rozwiązań anti-bot będą nadal podnosić poprzeczkę. Będą. Ciekawą prognozą jest to, które narzędzia do scrapowania przetrwają na rynku, na którym 98-procentowa skuteczność wykrywania to absolutne minimum wejściowe.

Większość nie przetrwa. Jednak te, którym się to uda, będą traktować handshake TLS jako część requestu, a nie szczegół transportowy. A kupujący zaczną zadawać dostawcom pytanie, którego dwanaście miesięcy temu nie było na liście kryteriów oceny: jaki fingerprint TLS dostarczacie i jak szybko go aktualizujecie?

Handshake rozstrzyga sprawę, zanim request dostanie szansę na zaprezentowanie swoich argumentów.