Pay-Per-Crawl dzieli sieć na pół

19 lutego 2026 roku Stack Overflow i Cloudflare ogłosili coś, czego większość branży danych webowych się nie spodziewała. Wspólnie uruchomili pay-per-crawl: system, w którym crawlery AI otrzymują w czasie rzeczywistym odpowiedź 402 Payment Required i mogą albo zapłacić stawkę wydawcy, albo odejść. Tożsamość bota jest weryfikowana na edge, cena jest ustalana przez witrynę, a transakcja jest mierzona.

Cloudflare stoi przed mniej więcej jedną piątą stron w internecie. Kiedy więc włączyli domyślne blokowanie znanych botów AI i uruchomili marketplace, na którym wydawcy pobierają opłaty za request, model dostępu do ogromnej części otwartej sieci zmienił się w jeden weekend.

Jeśli tworzysz teraz infrastrukturę danych webowych, to nie jest zwykłe ogłoszenie Cloudflare, które można złożyć do szuflady. To zmienia kalkulację tego, co oznacza „otwarty”.

Mechanizm stojący za tą zmianą

Krok techniczny jest niewielki. Cloudflare wskrzesiło HTTP 402, dawno zapomniany kod statusu „Payment Required”, i podpięło go pod rejestr zweryfikowanych crawlerów AI. Wydawca ustala cenę za request. Crawler albo ma środki na koncie i płaci, albo zostaje zablokowany.

Krok nietechniczny jest znacznie większy. Wcześniej jedynymi sposobami na wymuszenie zasady „nie pobieraj moich treści dla AI” były robots.txt (zalecenie, bez możliwości wymuszenia) oraz agresywne blokowanie botów (binarne, stratne i pełne false positives). Cloudflare dodało trzecią opcję: cenówkę.

Ekonomia tej trzeciej opcji działa inaczej niż w przypadku dwóch pierwszych. Robots.txt nic nie kosztuje i jest ignorowany. Blokowanie botów kosztuje utratę ruchu od prawdziwych użytkowników błędnie sklasyfikowanych jako boty. Cenówka z założenia oddziela crawlery gotowe zapłacić od tych, które płacić nie chcą.

Kto tak naprawdę pobiera opłaty

Stack Overflow był partnerem wdrożeniowym, ponieważ ich dane treningowe są naprawdę wartościowe i prowadzili już dwustronne negocjacje z OpenAI i innymi podmiotami. Marketplace od Cloudflare uogólnił te dwustronne umowy do formy rejestru, do którego może podpiąć się reszta świata wydawców.

Lista tych, którzy poszli w ich ślady, szybko urosła. AWS wdrożył własną warstwę monetyzacji botów. Akamai zbudowało analogiczne rozwiązanie. Przekaz do wydawców jest prosty: zamiast jednego kosztownego procesu sądowego przeciwko laboratorium AI, zyskaj źródło przychodu płatne za każdy request.

Na razie dotyczy to głównie segmentu treści o wysokiej wartości: dokumentacji, wiadomości, technicznych Q&A oraz ustrukturyzowanych danych referencyjnych. Długi ogon sieci (małe sklepy e-commerce, lokalne ogłoszenia, niszowe fora) nie znajduje się za taką bramką i prawdopodobnie nigdy nie będzie. Uruchomienie własnego bot managementu od Cloudflare kosztuje, a pay-per-crawl działa na zasadzie opt-in. Opłaca się to tylko w przypadku stron, na których pojedyncze wyświetlenie jest warte swojej ceny.

Co to oznacza dla pipeline'ów danych webowych

Jeśli budujesz pipeline pobierający dane ze Stack Overflow, dużych serwisów informacyjnych lub od dowolnego z wydawców, którzy właśnie dołączają do programu, Twoje opcje kurczą się do trzech. Zapłać przez marketplace, gdy Twój ruch zostanie zidentyfikowany jako crawler AI. Przełącz się na licencjonowany zestaw danych, jeśli taki istnieje. Albo znajdź te dane tam, gdzie wciąż są otwarte.

Większość zespołów skończy na stosowaniu wszystkich trzech rozwiązań w różnych momentach. Taka jest praktyczna rzeczywistość. Sieć dzieli się na licencjonowaną i otwartą, a granica nie przebiega czysto wzdłuż domen. Ten sam wydawca może mieć jedną sekcję za barierą 402, a inną otwartą. Ta sama witryna może pobierać opłaty od jednego crawlera, a bota badawczego całkowicie ignorować.

Uważamy, że praktyczna reakcja zespołów inżynieryjnych powinna wyglądać następująco. Po pierwsze, zrób audyt swoich źródeł. Jeśli znacząca część Twojego pipeline'u pobiera dane ze Stack Overflow, Reddita, dużych serwisów informacyjnych lub od kilkunastu wydawców widocznie dążących do takich umów, załóż, że model dostępu zmieni się w ciągu dwunastu miesięcy. Po drugie, odpowiednio wcześnie oddziel licencjonowane źródła od otwartych w swojej architekturze. Pipeline, który traktuje każde źródło identycznie, staje się podatny na awarie, gdy połowa z nich zaczyna żądać pieniędzy, a druga połowa nie. Po trzecie, przestań traktować robots.txt jako jedyny sygnał. Odpowiedź 402 będzie miała znaczenie operacyjne, nawet jeśli Twój crawler nie jest agentem AI. False positives są nieuniknione w tak nowym systemie.

Wpisuje się to w presję na zgodność danych treningowych z unijnym AI Act, która już wcześniej skłaniała zespoły do korzystania ze źródeł o sprawdzonym pochodzeniu. Pay-per-crawl to ta sama presja, ale z dołączoną warstwą rozliczeniową.

Szczere podsumowanie

Kilka rzeczy może sprawić trudność. Weryfikacja tożsamości w Cloudflare opiera się na rejestracji botów. Boty, które się nie zarejestrują lub wyglądają jak ruch residential, w ogóle nie wywołają statusu 402. Zamiast tego trafią na standardowy stos anti-bot. To i tak jest ścieżka, którą wybierze większość agresywnych crawlerów AI. Pay-per-crawl działa więc w przypadku botów, które chcą przestrzegać zasad. Te, które tego nie chcą, i tak nigdy nie respektowałyby robots.txt.

Większą zmianą może nie być sam marketplace. Chodzi o to, że pytanie „czy ta treść jest dostępna do trenowania AI” zyskało odpowiedź opartą na umowie, a nie na domysłach z robots.txt. Wydawcy mogą w końcu wymusić zasady. Crawlery mogą w końcu mieć pewność. Szara strefa kurczy się tam, gdzie sięga marketplace.

To, co pozostaje szare, to wszystko poza nim. Mała strona bez Cloudflare, regionalny agregator bez strategii AI, długi ogon sieci, o który nikt nie negocjuje: oni nie dostaną 402 ani umowy licencyjnej. Zachowają taką politykę dostępu, jaką mieli wcześniej, tylko z głośniejszym protestem teraz, gdy istnieje już precedens rekompensaty.

Dokąd to zmierza

Dwie prognozy, i nie są one bezpieczne.

Po pierwsze: najbliższe dwanaście miesięcy przyniesie drugi poziom paywalla, tym razem dla botów innych niż AI. Mechanizm marketplace to tylko kod statusu HTTP i warstwa bilingowa. Technicznie nietrudno rozszerzyć go o cenniki dla crawlerów wyszukiwarek, botów archiwizujących czy monitorujących konkurencję. To, czy wydawcy utrzymają granicę i będą pobierać opłaty tylko od crawlerów AI, zależy od zachowania kolejnej fali. Zazwyczaj ta granica pęka.

Po drugie: laboratoria AI znajdą obejścia. Nie poprzez ignorowanie 402 (to łatwe do wykrycia i grozi procesem), ale kupując licencjonowane zestawy danych hurtowo, a całą resztę przepuszczając przez ruch, który wygląda jak prawdziwi użytkownicy. Cloudflare już teraz wdraża więcej detekcji behawioralnej właśnie dlatego, że o tym wie. Obserwujemy przesunięcie tego wyścigu zbrojeń w stronę sygnałów na poziomie sesji już od dwóch lat. To nie skończy się na marketplace.

Ciekawe pytanie dla twórców nie brzmi, czy płacić. Brzmi: gdzie otwarta sieć pozostanie otwarta i jak długo.