Web Scraping Tarpits: Кой всъщност бива уловен

Сайтовете поставят капани за AI crawlers

Инструмент, наречен Nepenthes придоби огромна популярност в началото на 2025 година. Той генерира безкрайни лабиринти от фалшиви уеб страници, всяка от които препраща към още фалшиви страници, проектирани да улавят crawlers в капан от безкраен цикъл, от който не могат да избягат. Текстът на тези страници? Алгоритмично генерирани безсмислици, създадени с цел да замърсят наборите от данни за обучение на AI с боклук.

Nepenthes не е единствен. Проекти като Locaine и нарастващ списък с open-source "tarpits" се появиха в GitHub, всеки със същото послание: ако AI компаниите не зачитат robots.txt, собствениците на сайтове ще отвърнат на удара с отрова.

Мотивацията е логична. Академично проучване в arXiv установи, че блокирането на AI сред реномираните сайтове е скочило от 23% през септември 2023 година до близо 60% до май 2025 година. Анализът на BuzzStream показа, че 79% от водещите новинарски сайтове вече блокират AI ботове за обучение чрез robots.txt. А Cloudflare Radar докладва че 75% от свързания с AI уеб трафик в средата на 2025 година е бил генериран за целите на обучението, а не за търсене или извличане на изводи.

Но tarpits не проверяват идентификационни данни. Те не питат защо събирате данни. Те улавят всичко, което изглежда автоматизирано.

Кой всъщност бива уловен

Целевите обекти са очевидни: GPTBot, ClaudeBot, crawlers на AI компаниите, които събират данни от отворения уеб за обучение. Проблемът е, че tarpits не могат да направят разлика между crawler на OpenAI и вашия скрипт за проследяване на цени.

Tarpits засичат автоматизирани модели на request. Ако вашият scraper следва връзки систематично, достъпва страници на равни интервали или пропуска изпълнението на JavaScript (начинът, по който работят повечето AI crawlers за обучение), той изглежда като цел. Капанът не се интересува от това, че сте екип от 10 души в електронната търговия, който проследява цените на конкурентите. Той вижда трафик с поведение на бот и започва да сервира фалшиви страници.

Това не е просто теория. Изследване от Rutgers и Wharton установи, че сайтовете, блокиращи AI crawlers, са отбелязали 23.1% спад в общия трафик и 13.9% спад в човешкия трафик. Агресивното блокиране не просто спира AI scrapers. То вреди и на видимостта на самия сайт.

А tarpits отиват още по-далеч: те активно хабят изчислителната мощ, паметта и честотната лента на даден crawler, докато го захранват с данни, които влошават качеството на модела или базата данни, които той изгражда.

Стълбицата на ескалация

Robots.txt винаги е бил джентълменско споразумение. Он работеше, когато всички спазваха правилата. Когато големите AI компании започнаха да го игнорират (или да намират креативни тълкувания на "събиране на данни за търсене" спрямо "събиране на данни за обучение"), собствениците на сайтове ескалираха мерките.

Моделът изглежда така:

Блокиране чрез robots.txt: учтивото искане
Филтриране по User-Agent: блокиране на известни сигнатури на AI crawlers
Поведенческо засичане: улавяне на непознати crawlers по техните модели на request
Tarpits: активни противодействия, които хабят ресурси и отравят данните

Всяка стъпка улавя повече заплахи. Всяка стъпка също така улавя повече легитимен трафик. До стъпка четири вече третирате всеки автоматизиран достъп като враждебен. Така че scraper, който събира публично достъпни цени на продукти за услуга за сравнение, се сблъсква със същите капани като GPTBot, който събира данни без разрешение.

Какво трябва да направят екипите за данни сега

Ако управлявате събиране на данни в какъвто и да е мащаб, tarpits променят правилата. Някои неща вече имат много по-голямо значение от преди.

Винаги зачитайте robots.txt. Това звучи базово, но днес е абсолютно задължително изискване. Сайтовете използват robots.txt като първичен филтър. Игнорирайте го и ще се поставите в същата категория като AI ботовете за обучение, които предизвикаха цялата тази реакция с tarpits.

Не изглеждайте като crawler за обучение. AI crawlers за обучение имат предвидими сигнатури: те следват всяка връзка, изискват страници на партиди, пропускат JavaScript и поддържат регулярни интервали. Ако вашият scraper прави същото, поведенческото засичане ще го маркира. Варирайте времето си. Зареждайте само това, което ви е необходимо. Изпълнявайте JavaScript, когато сайтът го изисква. Писахме за причините, поради които scrapers биват блокирани, в Why Your Web Scraper Keeps Breaking.

Валидирайте входящите данни. Tarpits сервират изглеждащ достоверно боклук. Ако не проверявате responses във вашия pipeline, може да съхранявате генериран от Марков текст като реални описания на продукти. Изградете валидацията като основна стъпка, а не като закъсняла мярка.

Инвестирайте във вашата инфраструктура за request. Старият наръчник (ротация на IP адреси, решаване на CAPTCHAs, повторен опит при грешка) вече не е достатъчен. Съвременните anti-bot системи анализират TLS fingerprints, поведението на браузъра и моделите на сесиите. Smart proxy routing помага, но истинската промяна е от засичане на ниво IP към засичане на ниво поведение. Ако събирате данни от сайтове с интензивно използване на JavaScript, browser-based collection става все по-често единственият надежден подход.

Разликата в достъпа се увеличава

Смятаме, че уеб пространството върви към ясно разделение. От едната страна: сайтове, които монетизират данните си чрез споразумения за платен достъп, API партньорства и лицензирано събиране на данни. От другата: сайтове, които третират всеки автоматизиран достъп като заплаха и внедряват все по-агресивни противодействия.

За екипите за данни това означава, че разходите за събиране ще продължат да растат. Не защото технологията е по-трудна за изграждане, а защото средата е по-враждебна. Екипите, които инвестират в отговорни и прозрачни практики за scraping, ще запазят своя достъп. Тези, които изглеждат като ботове за обучение, ще бъдат уловени в капан, отровени и блокирани.

Tarpits няма да изчезнат. Въпросът за вашия екип не е дали да се притеснявате за тях. А дали вашата инфраструктура може да забележи разликата между истинска страница и капан, преди тези данни да попаднат във вашата база данни.