Todos os posts

Pay-Per-Crawl está dividindo a web em duas

O marketplace de pay-per-crawl da Cloudflare e o HTTP 402 dividem a web em dados licenciados e abertos. Veja o que muda para as equipes que coletam dados da web em 2026.

Em 19 de fevereiro de 2026, o Stack Overflow e a Cloudflare revelaram algo que a maior parte da indústria de dados da web não esperava. Eles lançaram em conjunto o pay-per-crawl: um sistema onde os crawlers de IA recebem uma response 402 Payment Required em tempo real e podem pagar o preço do publisher ou ir embora. A identidade do bot é verificada no edge, o preço é definido pelo site e a transação é tarifada.

A Cloudflare fica à frente de aproximadamente um em cada cinco sites na internet. Portanto, quando eles ativaram o bloqueio por padrão para bots de IA conhecidos e criaram um marketplace onde os publishers cobram por request, o modelo de acesso para uma enorme fatia da web aberta mudou em um fim de semana.

Se você está desenvolvendo infraestrutura de dados da web agora, este não é um anúncio da Cloudflare para ignorar. Ele muda a lógica do que "aberto" significa.

O mecanismo por trás da mudança

A mudança técnica é pequena. A Cloudflare ressuscitou o HTTP 402, o código de status "Payment Required" há muito tempo adormecido, e o conectou a um registro de crawlers de IA verificados. Um publisher define um preço por request. O crawler mantém um saldo de créditos e paga, ou é bloqueado.

A mudança não técnica é maior. Antes disso, as únicas maneiras de impor "não faça scraping do meu conteúdo para IA" eram o robots.txt (consultivo, não obrigatório) e o bloqueio agressivo de bots (binário, com perdas e cheio de falsos positivos). A Cloudflare adicionou uma terceira opção: uma etiqueta de preço.

A economia dessa terceira opção funciona de forma diferente das duas primeiras. O robots.txt não custa nada e é ignorado. O bloqueio de bots custa tráfego de usuários reais classificados incorretamente como bots. Uma etiqueta de preço, por design, separa os crawlers dispostos a pagar daqueles que não estão.

Quem realmente está cobrando

O Stack Overflow foi o parceiro de lançamento porque seus dados de treinamento são genuinamente valiosos e eles já estavam negociando acordos bilaterais com a OpenAI e outros. O marketplace da Cloudflare generalizou esses acordos bilaterais em um registro no qual o restante do mundo dos publishers pode se conectar.

A lista de quem seguiu o exemplo cresceu rápido. A AWS lançou sua própria camada de monetização de bots. Akamai construiu uma paralela. A proposta para os publishers é direta: em vez de um processo judicial caro contra um laboratório de IA, obtenha uma linha de receita que paga por request.

Por enquanto, isso se limita principalmente à camada de conteúdo de alto valor: documentação, notícias, perguntas e respostas técnicas, dados de referência estruturados. A cauda longa da web (pequenos sites de e-commerce, listagens regionais, fóruns de nicho) não fica atrás de nenhum portal desse tipo e provavelmente nunca ficará. O próprio gerenciamento de bots da Cloudflare custa dinheiro para rodar, e o pay-per-crawl é opcional. Só compensa para sites onde vale a pena cobrar por uma única visualização de página.

O que isso significa para pipelines de dados da web

Se você está construindo um pipeline que extrai dados do Stack Overflow, de grandes sites de notícias ou de qualquer um dos publishers que estão aderindo ativamente, suas opções se reduzem a três. Pagar por meio do marketplace assim que seu tráfego for identificável como um crawler de IA. Mudar para um dataset licenciado onde houver um disponível. Ou encontrar os dados em algum lugar onde eles ainda sejam abertos.

A maioria das equipes acabará fazendo as três coisas em momentos diferentes. Essa é a realidade prática. A web está se dividindo em licenciada e aberta, e a fronteira não é desenhada de forma clara ao longo das linhas de domínio. O mesmo publisher pode ter uma seção atrás do 402 e outra seção aberta. O mesmo site pode cobrar de um crawler e ignorar completamente um bot de pesquisa.

Acreditamos que a reação prática para as equipes de engenharia deve ser a seguinte. Primeiro, faça uma auditoria de suas fontes. Se uma parte significativa do seu pipeline extrai dados do Stack Overflow, Reddit, grandes sites de notícias ou de qualquer uma das dezenas de publishers que estão visivelmente buscando esses acordos, assuma que o modelo de acesso mudará em doze meses. Segundo, separe as fontes licenciadas das abertas dentro da sua arquitetura desde cedo. Um pipeline que trata todas as fontes de forma idêntica é frágil quando metade delas começa a cobrar e a outra metade não. Terceiro, pare de tratar o robots.txt como o único sinal. A response 402 terá um significado operacional mesmo que seu crawler não seja um agente de IA. Falsos positivos são inevitáveis em um sistema tão novo.

Isso se soma à pressão de conformidade de dados de treinamento do EU AI Act, que já vinha empurrando as equipes em direção a fontes com rastreamento de proveniência. O pay-per-crawl é a mesma pressão, mas com uma camada de faturamento integrada.

A análise realista

Alguns fatores vão complicar as coisas. A verificação de identidade da Cloudflare depende do registro dos bots. Bots que não se registram, ou que parecem tráfego residencial, não acionam o 402 de forma alguma. Em vez disso, eles caem na pilha anti-bot normal. Esse já é o caminho que a maioria dos crawlers de IA agressivos seguirá. Portanto, o pay-per-crawl funciona para os bots que querem estar em conformidade. Aqueles que não querem também nunca iriam respeitar o robots.txt.

A maior mudança pode não ser o marketplace em si. É o fato de que "este conteúdo está disponível para treinamento de IA" passou a ser uma pergunta com uma resposta contratual, em vez de uma suposição baseada no robots.txt. Os publishers finalmente podem impor suas regras. Os crawlers finalmente podem saber. A zona cinzenta encolhe onde o marketplace alcança.

O que continua cinzento é tudo o que está fora dele. O site pequeno sem Cloudflare, o agregador regional sem estratégia de IA, a cauda longa da web sobre a qual ninguém está negociando: esses não recebem um 402 e também não conseguem um acordo de licenciamento. Eles mantêm qualquer política de acesso que tinham antes, apenas com protestos mais barulhentos agora que existe um precedente de compensação.

Para onde isso caminha

Duas previsões, e elas não são garantidas.

Primeira: os próximos doze meses verão um segundo nível de paywall, desta vez para bots que não são de IA. O mecanismo do marketplace é apenas um código de status HTTP e uma camada de faturamento. Não é tecnicamente difícil estendê-lo para preços de crawlers de busca, de bots de arquivamento ou de monitoramento de concorrentes. Se os publishers vão manter a linha de cobrar apenas de crawlers de IA depende de como a próxima onda se comportará. Na maioria dos anos, essa linha se rompe.

Segunda: os laboratórios de IA vão contornar isso. Não ignorando o 402 (isso é rastreável e passível de processo), mas comprando datasets licenciados em lote e, em seguida, passando todo o resto por meio de tráfego que se parece com usuários reais. A Cloudflare já está lançando mais detecção comportamental justamente porque sabe disso. Nós acompanhamos essa corrida armamentista migrar para sinais no nível da sessão há dois anos. Isso não termina com um marketplace.

A questão interessante para os desenvolvedores não é se devem pagar. É onde a web aberta continuará aberta, e por quanto tempo.