Detekcja botów przeszła na analizę behawioralną. Większość scraperów nie.

W styczniu 16 milionów żądań udowodniło, że blokowanie IP umarło

W styczniu 2026 roku duża platforma e-commerce padła ofiarą ataku scalpingowego. Szesnaście milionów żądań rozproszonych na 3,9 miliona unikalnych adresów IP. Rate limiting na poziomie IP nie był w stanie tego zatrzymać. Atak nie odniósł sukcesu dzięki sprytnemu kodowi. Udał się, ponieważ sama liczba adresów IP sprawiła, że tradycyjna detekcja straciła sens (SecurityBoulevard, marzec 2026).

Ten incydent udowodnił to, o czym branża anti-bot mówi od dawna: sama reputacja IP nie pozwala odróżnić ludzi od botów. A skoro obrońcy poszli do przodu, scraperzy też muszą.

Trzy warstwy, które zastąpiły blokowanie IP

Nowoczesna detekcja botów działa na trzech warstwach. Tylko pierwsza z nich dotyczy Twojego IP.

Fingerprinting sieciowy. Zanim Twoje żądanie dotrze do serwera, pakiet TLS "Client Hello" tworzy sygnaturę (znaną jako JA3 lub JA4), która identyfikuje bibliotekę HTTP wykonującą żądanie. Biblioteka requests w Pythonie, domyślny klient Go, fetch w Node.js, każdy z nich generuje unikalny fingerprint. Systemy anti-bot sprawdzają to, zanim odczytają choćby jeden nagłówek. Jeśli Twoja sygnatura TLS nie pasuje do prawdziwej przeglądarki, zostajesz zablokowany na poziomie połączenia (Reddit r/programming).

Fingerprinting przeglądarki. Strony sprawdzają teraz ponad 300 sygnałów ze środowiska przeglądarki. Renderowanie Canvas, wyjście WebGL, kontekst audio, zainstalowane czcionki, rozdzielczość ekranu, strefa czasowa, informacje o GPU. Twój ciąg User-Agent to najmniej interesujący sygnał w całym stosie. Cloudflare, Akamai i DataDome zbierają te dane pasywnie poprzez testy JavaScript uruchamiane przed załadowaniem strony (ScrapingBee, 2026).

Analiza behawioralna. To najnowsza warstwa i najtrudniejsza do sfałszowania. Systemy anti-bot śledzą teraz ruchy myszy, prędkość przewijania, wzorce kliknięć, tempo pisania na klawiaturze oraz odstępy czasowe między interakcjami. Prawdziwi ludzie nie poruszają myszą po liniach idealnie prostych. Robią pauzy, celują obok przycisków, przewijają chaotycznie. Boty tego nie robią lub robią to zbyt idealnie (r/webdev, 2026).

Większość zespołów zajmujących się scrapingiem walczy na złym froncie

Oto niewygodna prawda: większość zespołów zajmujących się scrapingiem wciąż inwestuje głównie w infrastrukturę IP. Większe pule proxy, domowe adresy IP, rotacyjne bramki. Jest na to miejsce. Reputacja IP nadal ma znaczenie jako jeden z wielu sygnałów.

Jednak zakup 10 000 domowych adresów IP nic nie da, jeśli Twój fingerprint TLS krzyczy "skrypt w Pythonie", a Twoja przeglądarka headless ujawnia flagi automatyzacji przez navigator.webdriver. Wydajesz pieniądze na niewłaściwą warstwę.

Programista, który zbudował 34 produkcyjne scrapery, opisał ten problem (Dev|Journal, marzec 2026): przepaść między scrapingiem na poziomie samouczków a tym, co działa na produkcji, definiują systemy anti-bot analizujące fingerprinty TLS i ruchy myszy, a nie selektory DOM. Samouczki uczą parsowania HTML. Produkcja uczy przetrwania detekcji.

I jest coraz gorzej. Raport State of Web Scraping 2026 przygotowany przez Browserless wykazał, że standardowe przeglądarki headless są flagowane częściej niż prawdziwe przeglądarki, ponieważ systemy anti-bot skatalogowały specyficzne różnice w fingerprintach między headless a zwykłym Chrome. Ta przepaść się nie zmniejsza.

Jeśli Twój scraper ciągle się psuje, a Ty skupiasz się tylko na rotacji proxy, możesz naprawiać zupełnie niewłaściwą rzecz.

Czynnik Cloudflare

Cloudflare zasługuje na szczególną uwagę, ponieważ stoi po obu stronach tej zmiany.

Ich produkt Bot Management przeprowadza analizę behawioralną każdego żądania, oceniając odwiedzających w skali 1-99 na podstawie dziesiątek sygnałów. Turnstile (ich niewidzialny zamiennik CAPTCHA) dynamicznie dostosowuje poziom trudności wyzwania w zależności od tego, jak bardzo ludzko wygląda odwiedzający (dokumentacja Cloudflare).

Jednocześnie Cloudflare uruchomiło własną infrastrukturę do crawlingu AI. Społeczność szybko dostrzegła ironię (Reddit r/cybersecurity).

Co to oznacza w praktyce: strony chronione przez Cloudflare są najtrudniejsze do scrapowania w 2026 roku, a około 20% wszystkich witryn znajduje się za ich siecią. Jeśli Twoja strategia scrapingu nie uwzględnia detekcji behawioralnej, tracisz jedną piątą dostępnego internetu.

Co naprawdę działa w 2026 roku

Scrapery, które odnoszą sukces, mają trzy wspólne cechy.

Po pierwsze, dopasowują fingerprinty TLS prawdziwych przeglądarek. Narzędzia takie jak curl-impersonate replikują dokładną sygnaturę TLS Chrome lub Firefox, zapobiegając wykryciu, zanim w ogóle się rozpocznie. Żadne fałszowanie nagłówków nie naprawi niedopasowanego hasha JA3.

Po secie, uruchamiają prawdziwe (lub przekonująco prawdziwe) środowiska przeglądarek. Nie headless Chrome z domyślnymi ustawieniami. Rzeczywiste instancje przeglądarek ze spójnymi fingerprintami, które pasują do deklarowanego User-Agent.

Po trzecie, w przypadku chronionych stron dodają szum behawioralny naśladujący zachowanie człowieka. Losowe opóźnienia nie wystarczą. Odstępy czasowe między działaniami muszą być zgodne z realistycznymi rozkładami, a ścieżki ruchu myszy potrzebują krzywizn i wahań, które wyglądają naturalnie.

Architektura uległa więc zmianie. Nie chodzi o posiadanie większej liczby adresów IP. Chodzi o to, aby każde żądanie było nie do odróżnienia od zachowania prawdziwej osoby przeglądającej Chrome.

Wyścig zbrojeń w detekcji przyspiesza

Dostawcy rozwiązań anti-bot zaczęli udostępniać informacje o zagrożeniach w czasie rzeczywistym w całej swojej bazie klientów. Gdy jedna strona oflaguje nowy wzorzec bota, każda inna witryna w sieci dowiaduje się o tym w ciągu kilku minut (SecurityBoulevard, marzec 2026). To fundamentalna zmiana w porównaniu ze starym modelem, w którym zabezpieczenia każdej witryny działały niezależnie.

Uważamy, że oznacza to stały wzrost kosztów samodzielnie budowanej infrastruktury do scrapingu. Każdy nowy sygnał detekcji wymaga czasu inżynieryjnego na jego obejście, a cykl ten przyspiesza. Zespoły, które radzą sobie z detekcją na poziomie infrastruktury (inteligentne trasowanie proxy, fingerprinting przeglądarki, dopasowywanie TLS) osiągną lepsze wyniki niż te, które wciąż próbują rozwiązać problem za pomocą kolejnych adresów IP.

Pytanie nie brzmi, czy potrzebujesz więcej proxy. Pytanie brzmi, czy Twoje żądania wyglądają jak ludzkie, zanim w ogóle dotrą do docelowego serwera.