Всички публикации

Pay-Per-Crawl разделя мрежата на две

Пазарът за pay-per-crawl на Cloudflare и HTTP 402 разделят мрежата на лицензирани и отворени данни. Ето какво се променя за екипите, събиращи уеб данни през 2026 г.

На 19 февруари 2026 г. Stack Overflow и Cloudflare обявиха публично нещо, което по-голямата част от индустрията за уеб данни не очакваше. Те стартираха съвместно pay-per-crawl: система, при която AI crawlers получават 402 Payment Required response в реално време и могат или да платят цената на издателя, или да се откажат. Идентичността на ботовете се проверява на edge, цената се определя от сайта, а трансакцията се измерва.

Cloudflare стои пред приблизително един на всеки пет сайта в интернет. Така че, когато те активираха блокирането по подразбиране за известни AI ботове и създадоха пазар, където издателите таксуват на request, моделът за достъп до огромна част от отворената мрежа се промени за един уикенд.

Ако в момента изграждате инфраструктура за уеб данни, това не е просто анонс от Cloudflare, който да архивирате. То променя изчисленията за това какво означава „отворен“.

The Mechanic Behind the Flip

Техническата стъпка е малка. Cloudflare възкреси HTTP 402, отдавна затихналия статус код „Payment Required“, и го свърза с регистър на проверени AI crawlers. Издателят определя цена на request. Crawler-ът или поддържа кредитен баланс и плаща, или бива блокиран.

Нетехническата стъпка е по-голяма. Преди това единствените начини за налагане на „не сканирайте съдържанието ми за AI“ бяха robots.txt (препоръчителен, без принудително изпълнение) и агресивното блокиране на ботове (двуично, със загуби и пълно с false positives). Cloudflare добави трета опция: ценови етикет.

Икономиката на тази трета опция работи по различен начин от първите две. Robots.txt не струва нищо и се игнорира. Блокирането на ботове ви струва трафик от реални потребители, погрешно класифицирани като ботове. Ценовият етикет по дизайн разделя crawlers, които са готови да платят, от тези, които не са.

Who's Actually Charging

Stack Overflow беше партньорът при стартирането, тъй като техните данни за обучение са наистина ценни и те вече преговаряха за двустранни сделки с OpenAI и други компании. Пазарът на Cloudflare обобщи тези двустранни сделки в регистър, към който останалата част от издателския свят може да се присъедини.

Списъкът на последвалите ги нарасна бързо. AWS пусна своя собствена система за монетизация на ботове. Akamai изгради паралелна такава. Предложението към издателите е просто: вместо едно скъпо съдебно дело срещу AI лаборатория, получете нов източник на приходи, който плаща на request.

Засега това е предимно сегментът с висококачествено съдържание: документация, новини, технически въпроси и отговори, структурирани справочни данни. Дългата опашка на мрежата (малки сайтове за електронна търговия, регионални обяви, нишови форуми) не стои зад такава бариера и вероятно никога няма да бъде там. Собственото управление на ботове на Cloudflare струва пари за поддръжка, а pay-per-crawl е opt-in. То има смисъл само за сайтове, при които си струва да се таксува единично преглеждане на страница.

What This Means for Web Data Pipelines

Ако изграждате pipeline, който извлича данни от Stack Overflow, големи новинарски сайтове или някой от издателите, които активно се включват, вашите възможности се свиват до три. Плащайте през пазара, след като трафикът ви бъде идентифициран като AI crawler. Преминете към лицензиран dataset, където има такъв. Или намерете данните някъде, където все още са отворени.

Повечето екипи в крайна сметка ще направят и трите в различни моменти. Това е практическата реалност. Мрежата се разделя на лицензирана и отворена, и границата не е прокарана точно по линиите на домейните. Един и същ издател може да има една секция зад 402 и друга отворена секция. Един и същ сайт може да таксува един crawler и да игнорира напълно изследователски бот.

Смятаме, че практическата реакция за инженерните екипи изглежда така. Първо, одитирайте източниците си. Ако значителна част от вашия pipeline извлича данни от Stack Overflow, Reddit, големи новинарски сайтове или някой от десетките издатели, които видимо се стремят към такива сделки, приемете, че моделът за достъп ще се промени в рамките на дванадесет месеца. Второ, отделете лицензираните източници от отворените в архитектурата си на ранен етап. Pipeline, който третира всеки източник еднакво, е крехък, когато половината от тях започнат да искат пари, а другата половина не. Трето, спрете да третирате robots.txt като единствения сигнал. 402 response ще има оперативно значение, дори ако вашият crawler не е AI агент. False positives са неизбежни в толкова нова система.

Това се нарежда до натиска за съответствие на данните за обучение от EU AI Act, който вече насочи екипите към източници с проследим произход. Pay-per-crawl е същият натиск, но с добавен billing слой.

The Honest Take

Няколко неща ще затруднят хората. Проверката на идентичността на Cloudflare се основава на регистрацията на ботовете. Ботовете, които не се регистрират или изглеждат като residential traffic, изобщо не задействат 402. Вместо това те се сблъскват с нормалния anti-bot стек. Това вече е пътят, по който ще поемат повечето агресивни AI crawlers. Така че pay-per-crawl работи за ботовете, които искат да спазват правилата. Тези, които не искат, така или иначе никога нямаше да спазват и robots.txt.

По-голямата промяна може да не е самият пазар. Тя е в това, че въпросът „достъпно ли е това съдържание за обучение на AI“ се превърна във въпрос с договорно решение, вместо в предположение, базирано на robots.txt. Издателите най-накрая могат да налагат правилата си. Crawlers най-накрая могат да знаят със сигурност. Сивата зона се свива там, където пазарът достига.

Това, което остава сиво, е всичко извън него. Малкият сайт без Cloudflare, регионалният агрегатор без AI стратегия, дългата опашка на мрежата, за която никой не преговаря: те не получават 402, нито сделка за лицензиране. Те запазват каквато и да е политика за достъп, която са имали преди, просто с по-силен протест сега, когато има прецедент за компенсация.

Where This Goes

Две прогнози, и те не са от най-сигурните.

Първо: през следващите дванадесет месеца ще видим второ ниво на paywall, този път за ботове, които не са свързани с AI. Механизмът на пазара е просто HTTP статус код и billing слой. Технически не е трудно това да се разшири до ценообразуване за търсещи машини (search crawlers), архивни ботове или мониторинг на конкуренти. Дали издателите ще удържат позицията да таксуват само AI crawlers зависи от това как ще се държи следващата вълна. В повечето случаи тази граница се преминава.

Второ: AI лабораториите ще намерят заобиколни пътища. Не чрез игнориране на 402 (това е проследимо и подлежи на съдебни дела), а чрез купуване на лицензирани datasets на едро и след това прекарване на всичко останало през трафик, който изглежда като реални потребители. Cloudflare вече пуска повече behavioral detection именно защото знае това. Наблюдаваме как тази надпревара във въоръжаването се премества към session-level signals вече две години. Тя не приключва с появата на пазар.

Интересният въпрос за разработчиците не е дали да плащат. А къде отворената мрежа ще остане отворена и за колко дълго.