Pay-Per-Crawl está dividiendo la web en dos

El 19 de febrero de 2026, Stack Overflow y Cloudflare hicieron público algo que la mayoría de la industria de datos web no vio venir. Lanzaron conjuntamente pay-per-crawl: un sistema en el que los crawlers de IA reciben una response 402 Payment Required en tiempo real y pueden pagar el precio del editor o retirarse. La identidad del bot se verifica en el edge, el sitio establece el precio y la transacción se mide.

Cloudflare se sitúa frente a aproximadamente uno de cada cinco sitios en internet. Por lo tanto, cuando activaron el bloqueo por defecto para los bots de IA conocidos y crearon un marketplace donde los editores cobran por request, el modelo de acceso para una gran parte de la web abierta cambió en un fin de semana.

Si estás desarrollando infraestructura de datos web en este momento, este no es un anuncio de Cloudflare para archivar. Cambia las reglas de lo que significa "abierto".

El mecanismo detrás del cambio

El movimiento técnico es pequeño. Cloudflare resucitó HTTP 402, el código de estado "Payment Required" que llevaba mucho tiempo inactivo, y lo conectó a un registro de crawlers de IA verificados. Un editor establece un precio por request. El crawler tiene un saldo de crédito y paga, o es bloqueado.

El movimiento no técnico es mayor. Antes de esto, las únicas formas de imponer el "no extraigas mi contenido para IA" eran robots.txt (consultivo, no obligatorio) y el bloqueo agresivo de bots (binario, con pérdida de datos y lleno de falsos positivos). Cloudflare añadió una tercera opción: una etiqueta de precio.

La economía de esa tercera opción funciona de manera diferente a las dos primeras. Robots.txt no cuesta nada y se ignora. El bloqueo de bots te cuesta tráfico de usuarios reales clasificados erróneamente como bots. Una etiqueta de precio, por diseño, separa a los crawlers dispuestos a pagar de los que no lo están.

Quién está cobrando realmente

Stack Overflow fue el socio de lanzamiento porque sus datos de entrenamiento son genuinamente valiosos y ya estaban negociando acuerdos bilaterales con OpenAI y otros. El marketplace de Cloudflare generalizó esos acuerdos bilaterales en un registro al que el resto del mundo de los editores puede conectarse.

La lista de quienes lo siguieron creció rápidamente. AWS lanzó su propia capa de monetización de bots. Akamai construyó una paralela. La propuesta para los editores es directa: en lugar de una demanda costosa contra un laboratorio de IA, obtén una línea de ingresos que paga por request.

Por ahora, esto es principalmente para el nivel de contenido de alto valor: documentación, noticias, preguntas y respuestas técnicas, y datos de referencia estructurados. La larga cola de la web (pequeños sitios de comercio electrónico, listados regionales, foros de nicho) no se encuentra detrás de tal barrera y probablemente nunca lo estará. El propio sistema de gestión de bots de Cloudflare cuesta dinero de operar, y pay-per-crawl es opcional (opt-in). Solo compensa para sitios donde vale la pena cobrar por una sola visualización de página.

Qué significa esto para los pipelines de datos web

Si estás construyendo un pipeline que extrae datos de Stack Overflow, de los principales sitios de noticias o de cualquiera de los editores que se están incorporando activamente, tus opciones se reducen a tres. Pagar a través del marketplace una vez que tu tráfico sea identificable como un crawler de IA. Cambiar a un conjunto de datos bajo licencia donde exista uno. O encontrar los datos en algún lugar donde sigan siendo abiertos.

La mayoría de los equipos terminarán haciendo las tres cosas en diferentes momentos. Esa es la realidad práctica. La web se está dividiendo en bajo licencia y abierta, y el límite no se traza de manera limpia a lo largo de las líneas de dominio. El mismo editor puede tener una sección detrás de un 402 y otra sección abierta. El mismo sitio puede cobrar a un crawler e ignorar por completo a un bot de investigación.

Creemos que la reacción práctica para los equipos de ingeniería es la siguiente. Primero, audita tus fuentes. Si una parte significativa de tu pipeline extrae datos de Stack Overflow, Reddit, principales sitios de noticias o cualquiera de la docena de editores que buscan visiblemente estos acuerdos, asume que el modelo de acceso cambiará dentro de doce meses. Segundo, separa pronto las fuentes bajo licencia de las abiertas dentro de tu arquitectura. Un pipeline que trata a todas las fuentes de manera idéntica es frágil cuando la mitad de ellas comienza a pedir dinero y la otra mitad no. Tercero, deja de tratar a robots.txt como la única señal. La response 402 tendrá un significado operativo incluso si tu crawler no es un agente de IA. Los falsos positivos son inevitables en un sistema tan nuevo.

Esto se suma a la presión de cumplimiento de datos de entrenamiento de la Ley de IA de la UE, que ya empujó a los equipos hacia fuentes con trazabilidad de procedencia. Pay-per-crawl es la misma presión con una capa de facturación añadida.

La perspectiva honesta

Algunas cosas confundirán a la gente. La verificación de identidad de Cloudflare se basa en el registro de los bots. Los bots que no se registran, o que parecen tráfico residencial, no activan el 402 en absoluto. En su lugar, se topan con la pila anti-bot normal. Ese ya es el camino que tomarán la mayoría de los crawlers de IA agresivos. Así que pay-per-crawl funciona para los bots que quieren cumplir. Los que no, tampoco iban a respetar robots.txt.

El mayor cambio podría no ser el marketplace en sí. Es que el "¿está este contenido disponible para el entrenamiento de IA?" se convirtió en una pregunta con una respuesta contractual en lugar de una suposición basada en robots.txt. Los editores finalmente pueden hacer cumplir las reglas. Los crawlers finalmente pueden saberlo. La zona gris se reduce allí donde llega el marketplace.

Lo que sigue siendo gris es todo lo que queda fuera de él. El sitio pequeño sin Cloudflare, el agregador regional sin estrategia de IA, la larga cola de la web por la que nadie está negociando: esos no reciben un 402, y tampoco obtienen un acuerdo de licencia. Mantienen cualquier política de acceso que tuvieran antes, solo que con protestas más fuertes ahora que existe un precedente de compensación.

Hacia dónde va esto

Dos predicciones, y no son nada seguras.

Uno: los próximos doce meses verán un segundo nivel de paywall, esta vez para bots que no son de IA. El mecanismo del marketplace es solo un código de estado HTTP y una capa de facturación. No es técnicamente difícil de extender a precios para crawlers de búsqueda, precios para bots de archivo o precios para monitoreo de competidores. Que los editores mantengan la línea de cobrar solo a los crawlers de IA depende de cómo se comporte la próxima ola. La mayoría de los años, esa línea se rompe.

Dos: los laboratorios de IA buscarán alternativas para evadirlo. No ignorando el 402 (eso es rastreable y judicializable), sino comprando conjuntos de datos bajo licencia a granel y luego pasando todo lo demás a través de tráfico que parezca de usuarios reales. Cloudflare ya está lanzando más detección de comportamiento precisamente porque lo saben. Hemos visto esa carrera armamentista trasladarse a señales a nivel de sesión desde hace dos años. No termina con un marketplace.

La pregunta interesante para los desarrolladores no es si deben pagar. Es dónde la web abierta sigue siendo abierta, y por cuánto tiempo.