Всички публикации

Засичането на ботове стана поведенческо. Повечето scrapers не се адаптираха.

Засичането на ботове се измести от блокиране на IP адреси към TLS fingerprints, браузърни сигнали и поведенчески анализ. Повечето scraping конфигурации водят грешната битка.

През януари 16 милиона requests доказаха, че блокирането на IP адреси е мъртво

Scalping атака удари голяма платформа за електронна търговия през януари 2026 г. Шестнадесет милиона requests се разпределиха между 3,9 милиона уникални IP адреса. Rate limiting на ниво IP не успя да я спре. Атаката не успя заради умен код. Тя успя, защото огромният обем от IP адреси обезсмисли традиционното засичане (SecurityBoulevard, март 2026 г.).

Този инцидент доказа това, което anti-bot индустрията твърди от известно време: само по себе си IP reputation не може да разграничи хората от ботовете. И ако защитниците са продължили напред, scrapers също трябва да го направят.

Трите слоя, които замениха блокирането на IP адреси

Модерното засичане на ботове работи на три слоя. Само първият от тях е свързан с вашия IP адрес.

Мрежово генериране на отпечатъци (Network fingerprinting). Преди вашата request да достигне до сървъра, вашият TLS "Client Hello" пакет създава подпис (известен като JA3 или JA4), който идентифицира HTTP библиотеката, правеща заявката. Библиотеката requests на Python, клиентът по подразбиране на Go, fetch на Node.js, като всеки от тях генерира различен fingerprint. Anti-bot системите проверяват това, преди да прочетат дори един header. Ако вашият TLS подпис не съвпада с този на реален браузър, бивате блокирани още на ниво връзка (Reddit r/programming).

Браузърно генериране на отпечатъци (Browser fingerprinting). Сайтовете вече проверяват над 300 сигнала от браузърната среда. Canvas рендериране, WebGL изход, аудио контекст, инсталирани шрифтове, разделителна способност на екрана, часова зона, информация за GPU. Вашият User-Agent низ е най-безинтересният сигнал в стека. Cloudflare, Akamai и DataDome събират тези данни пасивно чрез JavaScript предизвикателства, които се изпълняват преди зареждането на страницата (ScrapingBee, 2026).

Поведенчески анализ (Behavioral analysis). Това е най-новият слой и най-трудният за фалшифициране. Anti-bot системите вече проследяват движенията на мишката, скоростта на превъртане (scroll velocity), моделите на кликване, темпото на писане и времето между взаимодействията. Истинските хора не движат мишката в перфектно прави линии. Те правят паузи, подминават бутоните, превъртат хаотично. Ботовете не правят нищо от това или правят всичко твърде перфектно (r/webdev, 2026).

Повечето екипи за scraping водят грешната битка

Ето я неудобната истина: повечето екипи за scraping все още инвестират предимно в IP инфраструктура. По-големи proxy pools, residential IPs, ротиращи gateways. Има място за това. IP reputation все още има значение като един от многото сигнали.

Но купуването на 10 000 residential IPs няма да помогне, ако вашият TLS fingerprint крещи "Python script" или вашият headless браузър изпуска флагове за автоматизация чрез navigator.webdriver. Харчите пари за грешния слой.

Разработчик, който е създал 34 производствени scrapers, пише за този проблеми (Dev|Journal, март 2026 г.): разликата между scraping на ниво уроци и това, което работи в реална среда (production), се определя от anti-bot системите, които анализират TLS fingerprints и движенията на мишката, а не DOM селекторите. Уроците ви учат как да парсвате HTML. Реалната среда ви учи как да оцелеете при засичането.

И ситуацията се влошава. Докладът на Browserless State of Web Scraping 2026 установи, че стандартните headless браузъри биват засичани по-често от реалните браузъри, тъй като anti-bot системите са каталогизирали специфичните разлики във fingerprints между headless и стандартния Chrome. Разликата не намалява.

Ако вашият scraper продължава да се чупи и вие гледате само ротацията на proxy, може би поправяте напълно грешното нещо.

Факторът Cloudflare

Cloudflare заслужава специално внимание, тъй като те стоят и от двете страни на тази промяна.

Техният продукт Bot Management извършва поведенчески анализ на всяка request, оценявайки посетителите по скала от 1 до 99 въз основа на десетки сигнали. Turnstile (тяхната невидима алтернатива на CAPTCHA) динамично коригира трудността на предизвикателството въз основа на това колко човешки изглежда посетителят (документацията на Cloudflare).

В същото време Cloudflare стартира своя собствена AI crawling инфраструктура. Общността забеляза иронията (Reddit r/cybersecurity).

Какво означава това на практика: защитените от Cloudflare сайтове са най-трудни за scraping през 2026 г., а приблизително 20% от всички уебсайтове се намират зад тяхната мрежа. Ако вашата стратегия за scraping не взема предвид поведенческото засичане, вие сте загубили една пета от достъпния уеб.

Какво действително работи през 2026 г.

Успешните scrapers споделят три характеристики.

Първо, те съвпадат с TLS fingerprints на реални браузъри. Инструменти като curl-impersonate репликират точния TLS подпис на Chrome или Firefox, предотвратявайки засичането още преди да е започнало. Никакво количество header spoofing не може да коригира несъответстващ JA3 hash.

Второ, те работят в реални (или убедително реални) браузърни среди. Не headless Chrome с настройки по подразбиране. Действителни browser instances с последователни fingerprints, които съвпадат с User-Agent, за който се представят.

Трето, за защитени сайтове те добавят подобен на човешки поведенчески шум. Рандомизираните закъснения не са достатъчни. Времето между действията трябва да следва реалистични разпределения, а траекториите на движение на мишката се нуждаят от криви и колебания, които изглеждат естествени.

Така че архитектурата се промени. Не става въпрос за притежаването на повече IP адреси. Става въпрос за това всяка request да бъде неразличима от реален човек, сърфиращ в Chrome.

Надпреварата във въоръжаването при засичането се ускорява

Anti-bot доставчиците започнаха да споделят информация за заплахи (threat intelligence) в реално време в цялата си клиентска база. Когато един сайт маркира нов модел на бот, всеки друг сайт в мрежата научава за това в рамките на минути (SecurityBoulevard, март 2026 г.). Това е фундаментална промяна спрямо стария модел, при който защитата на всеки сайт работеше независимо.

Смятаме, че това означава, че цената на собственоръчно изградената инфраструктура за scraping ще продължи да расте. Всеки нов сигнал за засичане изисква инженерно време за противодействие, а този цикъл се ускорява. Екипите, които се справят със засичането на ниво инфраструктура (smart proxy routing, browser fingerprinting, TLS съвпадение) ще се представят по-добре от тези, които просто продължават да хвърлят IP адреси срещу проблема.

Въпросът не е дали имате нужда от повече proxies. Въпросът е дали вашите requests изглеждат човешки още преди да достигнат до целевия сървър.