Pay-Per-Crawl разделяет интернет на две части

19 февраля 2026 года Stack Overflow и Cloudflare представили решение, которого большинство участников индустрии веб-данных не ожидали. Они совместно запустили pay-per-crawl: систему, в которой AI-краулеры получают в реальном времени 402 Payment Required response и могут либо заплатить установленную издателем цену, либо уйти. Идентификация ботов проверяется на edge, цену устанавливает сайт, а транзакции тарифицируются.

Cloudflare обслуживает примерно каждый пятый сайт в интернете. Поэтому, когда они включили блокировку по умолчанию для известных AI-ботов и запустили маркетплейс, где издатели берут плату за каждый request, модель доступа к огромной части открытого интернета изменилась за одни выходные.

Если вы сейчас разрабатываете инфраструктуру для сбора веб-данных, этот анонс Cloudflare не стоит игнорировать. Он меняет само понимание того, что означает «открытый».

The Mechanic Behind the Flip

Технически это небольшое изменение. Cloudflare возродила HTTP 402, давно забытый код состояния «Payment Required», и связала его с реестром верифицированных AI-краулеров. Издатель устанавливает цену за request. Краулер либо оплачивает его с баланса, либо блокируется.

Нетехнический шаг гораздо масштабнее. До этого единственными способами заявить «не собирайте мой контент для AI» были robots.txt (носит рекомендательный характер, не контролируется принудительно) и агрессивная блокировка ботов (бинарная, с потерями и кучей ложных срабатываний). Cloudflare добавила третий вариант: ценник.

Экономика этого третьего варианта работает иначе, чем у первых двух. Robots.txt ничего не стоит и игнорируется. Блокировка ботов лишает вас трафика от реальных пользователей, которых ошибочно приняли за ботов. Ценник же по своей сути отделяет краулеры, готовые платить, от тех, кто к этому не готов.

Who's Actually Charging

Stack Overflow стал партнером запуска, потому что их данные для обучения моделей действительно ценны, и они уже вели двусторонние переговоры с OpenAI и другими компаниями. Маркетплейс Cloudflare масштабировал эти двусторонние соглашения в единый реестр, к которому может подключиться любой другой издатель.

Список тех, кто последовал их примеру, быстро растет. AWS выпустила собственный слой монетизации ботов. Akamai создала аналогичное решение. Предложение для издателей предельно простое: вместо одного дорогостоящего судебного процесса против AI-лаборатории вы получаете стабильный источник дохода с оплатой за каждый request.

Пока это касается в основном сегмента дорогого контента: документации, новостей, технических вопросов и ответов, структурированных справочных данных. «Длинный хвост» интернета (небольшие сайты электронной коммерции, региональные каталоги, нишевые форумы) не защищен такими барьерами и, вероятно, никогда не будет. Работа собственного инструмента управления ботами от Cloudflare стоит денег, а участие в pay-per-crawl является добровольным. Это выгодно только для сайтов, где просмотр даже одной страницы имеет ценность, за которую стоит брать плату.

What This Means for Web Data Pipelines

Если вы строите пайплайн, который собирает данные со Stack Overflow, крупных новостных сайтов или любых других активно подключающихся издателей, ваши варианты сокращаются до трех. Платить через маркетплейс, как только ваш трафик будет идентифицирован как AI-краулер. Перейти на лицензированный датасет, если он существует. Или искать эти данные там, где они все еще остаются открытыми.

Большинству команд в разное время придется использовать все три подхода. Такова практическая реальность. Веб разделяется на лицензионный и открытый, и эта граница не проходит четко по доменным именам. У одного и того же издателя один раздел может быть закрыт кодом 402, а другой оставаться открытым. Один и тот же сайт может брать плату с одного краулера и полностью игнорировать исследовательского бота.

Мы считаем, что практическая реакция инженерных команд должна быть следующей. Во-первых, проведите аудит ваших источников. Если значительная часть вашего пайплайна собирает данные со Stack Overflow, Reddit, крупных новостных сайтов или любого из десятков издателей, явно стремящихся к таким сделкам, исходите из того, что модель доступа изменится в течение двенадцати месяцев. Во-вторых, заранее разделите лицензионные и открытые источники внутри вашей архитектуры. Пайплайн, который обрабатывает все источники одинаково, окажется крайне уязвимым, когда половина из них начнет требовать деньги, а половина нет. В-третьих, перестаньте считать robots.txt единственным сигналом. 402 response будет иметь операционное значение, даже если ваш краулер не является AI-агентом. Ложные срабатывания неизбежны в столь новой системе.

Это происходит на фоне давления комплаенса в отношении обучающих данных со стороны EU AI Act, который уже подтолкнул команды к использованию источников с отслеживаемым происхождением. Pay-per-crawl представляет собой то же самое давление, но с добавлением биллингового уровня.

The Honest Take

Есть несколько моментов, которые могут запутать пользователей. Верификация личности в Cloudflare строится на регистрации ботов. Боты, которые не регистрируются или маскируются под резидентный трафик, вообще не вызывают 402 ошибку. Вместо этого они сталкиваются с обычным стеком защиты от ботов. Именно по этому пути уже идет большинство агрессивных AI-краулеров. Таким образом, pay-per-crawl работает для тех ботов, которые готовы соблюдать правила. Те же, кто не готов, в любом случае не стали бы соблюдать robots.txt.

Возможно, главным изменением станет даже не сам маркетплейс. Дело в том, что вопрос «доступен ли этот контент для обучения AI» теперь имеет четкий юридический ответ вместо догадок на основе robots.txt. Издатели наконец-то могут диктовать условия. Краулеры наконец-то могут получить точную информацию. Серая зона сужается там, где начинает работать маркетплейс.

Все, что находится за его пределами, остается в серой зоне. Небольшой сайт без Cloudflare, региональный агрегатор без AI-стратегии, «длинный хвост» интернета, о котором никто не договаривается: они не получают ни 402, ни лицензионного соглашения. Они сохраняют ту политику доступа, которая у них была раньше, но теперь их протесты звучат громче, поскольку появился прецедент компенсации.

Where This Goes

Два прогноза, и они далеко не очевидные.

Первый: в ближайшие двенадцать месяцев появится второй уровень пейвола, на этот раз для ботов, не связанных с AI. Механизм маркетплейса представляет собой всего лишь HTTP-код состояния и биллинговый слой. Технически несложно распространить его на тарификацию поисковых роботов, архивных ботов или систем мониторинга конкурентов. Удержат ли издатели рубеж, взимая плату только с AI-краулеров, зависит от поведения следующей волны ботов. Как показывает практика прошлых лет, этот рубеж обычно прорывают.

Второй: AI-лаборатории найдут обходные пути. Не путем игнорирования 402 (это легко отследить и оспорить в суде), а за счет оптовой покупки лицензионных датасетов и пропуска всего остального трафика под видом реальных пользователей. Cloudflare уже внедряет больше инструментов поведенческого анализа именно потому, что понимает это. Мы наблюдаем, как эта гонка вооружений смещается в сторону сигналов на уровне сессий уже два года. И она не закончится созданием маркетплейса.

Интересный вопрос для разработчиков заключается не в том, платить или нет. Он в том, где открытый интернет останется открытым и как долго.