Тарпиты для веб-скрейпинга: кто на самом деле оказывается в ловушке

Сайты Are Setting Traps for AI Crawlers

Инструмент под названием Nepenthes стал вирусным в начале 2025 года. Он генерирует бесконечные лабиринты фейковых веб-страниц, каждая из которых ссылается на другие фейковые страницы, чтобы запереть краулеры в бесконечном цикле. Текст на этих страницах? Алгоритмически сгенерированная бессмыслица, созданная для загрязнения обучающих датасетов AI мусором.

Nepenthes не одинок. Проекты вроде Locaine и растущий список open-source «тарпитов» появились на GitHub, и у всех один посыл: если AI-компании не уважают robots.txt, владельцы сайтов будут бороться с помощью яда.

Мотивация понятна. Академическое исследование на arXiv показало, что блокировка AI среди авторитетных сайтов подскочила с 23% в сентябре 2023 года до почти 60% к маю 2025 года. Анализ BuzzStream показал, что 79% ведущих новостных сайтов теперь блокируют ботов для обучения AI через robots.txt. А Cloudflare Radar сообщил, что 75% связанного с AI веб-трафика в середине 2025 года генерировалось для целей обучения, а не для поиска или инференса.

Но тарпиты не проверяют учетные данные. Они не спрашивают, зачем вы собираете данные. Они ловят все, что выглядит автоматизированным.

Кто на самом деле попадает в ловушку

Цели очевидны: GPTBot, ClaudeBot, краулеры AI-компаний, собирающие открытый веб для обучающих данных. Проблема в том, что тарпиты не могут отличить краулер OpenAI от вашего скрипта для мониторинга цен.

Тарпиты обнаруживают паттерны автоматизированных запросов. Если ваш скрейпер систематически переходит по ссылкам, запрашивает страницы через равные промежутки времени или пропускает выполнение JavaScript (как работает большинство краулеров для обучения AI), он выглядит как цель. Ловушке все равно, что вы команда из 10 человек в сфере e-commerce, отслеживающая цены конкурентов. Она видит ботоподобный трафик и начинает отдавать фейковые страницы.

Это не просто теория. Исследование Ратгерского университета и Уортонской школы бизнеса показало, что сайты, блокирующие AI-краулеры, зафиксировали снижение общего трафика на 23.1% и падение человеческого трафика на 13.9%. Агрессивная политика блокировки не просто останавливает AI-скрейперы. Она также вредит видимости самого сайта.

И тарпиты идут дальше: они активно расходуют вычислительные мощности, хранилище и пропускную способность краулера, одновременно скармливая ему данные, которые ухудшают качество строящейся модели или базы данных.

Лестница эскалации

Robots.txt всегда был джентльменским соглашением. Он работал, когда все соблюдали правила. Когда крупные AI-компании начали игнорировать его (или находить творческие интерпретации различий между «сканированием для поиска» и «сканированием для обучения»), владельцы сайтов пошли на эскалацию.

Схема выглядит следующим образом:

Блокировка в robots.txt: вежливая просьба
Фильтрация по User-Agent: блокировка известных сигнатур AI-краулеров
Поведенческое обнаружение: выявление неизвестных краулеров по паттернам их запросов
Тарпиты: активные контрмеры, которые тратят ресурсы и отравляют данные

Каждый шаг отсекает больше угроз. Каждый шаг также отсекает больше легитимного трафика. К четвертому шагу вы начинаете относиться к любому автоматизированному доступу как к враждебному. В итоге скрейпер, собирающий общедоступные цены на товары для сервиса сравнения, попадает в те же ловушки, что и GPTBot, собирающий данные без разрешения.

Что теперь делать командам по работе с данными

Если вы занимаетесь сбором данных в любых масштабах, тарпиты меняют правила игры. Некоторые вещи теперь имеют гораздо большее значение, чем раньше.

Всегда уважайте robots.txt. Это звучит банально, но сейчас это базовое требование. Сайты используют robots.txt как фильтр первого уровня. Проигнорируйте его, и вы поставите себя в один ряд с ботами для обучения AI, которые и спровоцировали появление всех этих тарпитов.

Не будьте похожи на краулер для обучения. Краулеры для обучения AI имеют предсказуемые сигнатуры: они переходят по каждой ссылке, запрашивают страницы пачками, пропускают JavaScript и соблюдают регулярные интервалы. Если ваш скрейпер делает то же самое, поведенческое обнаружение пометит его. Варьируйте задержки. Загружайте только то, что необходимо. Выполняйте JavaScript, когда этого требует сайт. Мы писали о причинах блокировки скрейперов в статье Почему ваш веб-скрейпер постоянно ломается.

Валидируйте входящие данные. Тарпиты отдают правдоподобно выглядящий мусор. Если вы не проверяете ответы в своем пайплайне, вы рискуете сохранить сгенерированный марковскими цепями текст как реальные описания товаров. Сделайте валидацию ключевым этапом, а не второстепенной задачей.

Инвестируйте в инфраструктуру запросов. Старые методы (ротация IP, обход CAPTCHA, повторные попытки при ошибках) больше не работают. Современные антибот-системы анализируют TLS-отпечатки, поведение браузера и паттерны сессий. Умная маршрутизация proxy помогает, но настоящий сдвиг происходит от обнаружения на уровне IP к обнаружению на уровне поведения. Если вы собираете данные с сайтов с большим количеством JavaScript, сбор на базе браузера становится единственным надежным подходом.

Разрыв в доступе увеличивается

Мы считаем, что веб движется к четкому разделению. С одной стороны: сайты, которые монетизируют данные через соглашения о платном доступе, партнерства по API и лицензированный краулинг. С другой стороны: сайты, которые рассматривают любой автоматизированный доступ как угрозу и развертывают все более агрессивные контрмеры.

Для команд по работе с данными это означает, что стоимость сбора будет расти. Не потому, что технологию сложнее создать, а потому, что среда становится более враждебной. Команды, которые инвестируют в ответственные и прозрачные методы скрейпинга, сохранят доступ. Те же, кто выглядит как боты для обучения, будут пойманы, отравлены и заблокированы.

Тарпиты никуда не денутся. Вопрос для вашей команды не в том, стоит ли о них беспокоиться. Вопрос в том, сможет ли ваша инфраструктура отличить реальную страницу от ловушки до того, как эти данные попадут в вашу базу данных.