El acceso sin control a los datos de entrenamiento de IA está llegando a su fin
A mediados de 2025, el 75% del tráfico web relacionado con la IA correspondía a la recopilación de datos de entrenamiento (Cloudflare Radar via Bright Data, 2025). No a la inferencia. No a las búsquedas. Al entrenamiento. Crawlers extrayendo páginas para alimentar al siguiente modelo.
Esa era está llegando a su fin.
Tres factores han convergido en los últimos seis meses. Los requisitos de transparencia de la Ley de IA de la UE pasaron de ser un borrador a ser de obligado cumplimiento. Los sitios web empezaron a bloquear los crawlers de IA a gran escala: el 60% de los dominios de confianza a finales de 2025, frente al 23% en septiembre de 2023 (Ars Technica, 2025). Y los compradores de datos de entrenamiento empezaron a hacer nuevas preguntas sobre su origen.
Si estás desarrollando un producto que utiliza datos extraídos para entrenar modelos, tienes un problema que la mayoría de los equipos aún no han contemplado en sus costes.
Qué exige realmente la Ley de IA de la UE
La implementación en 2026 introduce requisitos de transparencia para las fuentes de datos de entrenamiento de IA (resumen de Scalevise, 2026). Los proveedores de modelos de IA de propósito general tienen que publicar resúmenes de los datos utilizados para entrenarlos. Los autores y titulares de derechos pueden ejercer el opt-out, y esa exclusión debe respetarse en la capa de recopilación de datos, no en la capa de entrenamiento del modelo (donde ya es demasiado tarde).
En la práctica, aparecen tres elementos en las listas de verificación de compras:
- Registros públicos de qué sitios web has rastreado, cuándo y bajo qué permisos
- Mecanismos para respetar robots.txt y señales explícitas de opt-out
- Trazabilidad de datos (data lineage) que supere una auditoría dentro de dos años
Pero aquí está el truco: no se puede acoplar el cumplimiento normativo a un pipeline que no tiene idea de qué extrajo ni de dónde. Los equipos que desarrollaron el scraping como un proyecto paralelo están a punto de descubrir que "proyecto paralelo" y "listo para auditoría" son mutuamente excluyentes.
En resumen: la selección de proveedores ahora incluye la pregunta "¿puede tu socio de recopilación de datos generar un registro de auditoría limpio?". Esa pregunta no estaba en la mayoría de las listas de verificación en 2024. Estará en todas las importantes para el tercer trimestre de 2026.
La cuestión de los data brokers se ha complicado
Bright Data reportó más de 300 millones de dólares en ingresos anualizados con un crecimiento interanual superior al 50%, y han sido explícitos al afirmar que los datos para IA son el motor que lo impulsa. El mercado de datos de entrenamiento que cumplen con la normativa explotó porque la alternativa (simplemente hacer scraping de lo que quieras) se volvió más arriesgada de dos formas concretas.
En primer lugar, el frente legal se amplió. El Tribunal Supremo rechazó la petición de patente de Bright Data en febrero de 2026, y se invalidaron dos de sus patentes de proxy residenciales. Oxylabs presentó una contrademanda, con el juicio programado para el 18 de mayo de 2026. Independientemente de lo que se piense sobre los argumentos de cada parte, el resultado es un litigio costoso sobre cómo se recopilan los datos. Los competidores más pequeños que observan esto no están precisamente tranquilos.
En segundo lugar, la superficie técnica se amplió. Los proveedores de soluciones anti-bot empezaron a compartir inteligencia de amenazas entre los sitios de sus clientes en tiempo real. Un patrón de scraping que se detecta en un sitio de comercio electrónico puede bloquearse en cientos de ellos en cuestión de horas (SecurityBoulevard, 2026). El viejo manual de rotar proxies baratos y esperar lo mejor dejó de funcionar a finales de 2025. Analizamos ese cambio en la detección de bots se volvió conductual.
En resumen: el coste de la recopilación por cuenta propia (DIY) de datos de entrenamiento aumentó en ambos ejes. La exposición legal aumentó. La dificultad técnica aumentó. Las empresas que aún lo hacen están gastando dinero real en infraestructura o aceptando que sus datasets no superarán una auditoría.
Hacia dónde va esto para mediados de 2027
Creemos que los próximos 18 meses reconfigurarán el panorama de proveedores de tres maneras.
El cumplimiento normativo se convierte en un requisito básico. ISO 27001, SOC 2, procesos alineados con el GDPR, data lineage. No son elementos diferenciadores, sino requisitos mínimos. Bright Data ya cuenta con ISO 27001 y SOC 2. La mayoría de sus competidores están luchando por ponerse al día. Los equipos que lancen productos de IA serios se negarán a integrar a un proveedor de recopilación de datos que no pueda presentar estas certificaciones.
Los registros de auditoría se convierten en una funcionalidad. La mayoría de las API de scraping actuales devuelven los datos y descartan todo lo demás. Para 2027, una parte significativa de los clientes querrá un registro: URL de origen, hora de obtención, código de respuesta, estado de robots.txt en el momento de la obtención y comprobaciones de opt-out. Metadatos aburridos que se convierten en un salvavidas de cumplimiento normativo cuando se cuestiona un modelo.
La consolidación de proveedores se acelera. La carga administrativa del cumplimiento normativo favorece a las grandes escalas. Las pequeñas API de scraping que sobreviven con planes de 69 USD al mes tendrán que subir de categoría o quedarán fuera de cualquier acuerdo relacionado con el entrenamiento de IA. Los proveedores del mercado medio que combinan el cumplimiento normativo con precios razonables absorberán la demanda desplazada. Los cálculos de desarrollar frente a comprar que detallamos el mes pasado se han vuelto aún más desfavorables para la opción de desarrollar.
Qué significa esto para los equipos de ingeniería
Si vas a lanzar un producto de IA en los próximos 12 meses, tus decisiones sobre el origen de los datos ya no son solo una cuestión de infraestructura. Son una cuestión de riesgo legal y de acceso al mercado.
Tres preguntas que debes hacerle a tu pipeline actual:
¿Puedes listar cada dominio que has rastreado en los últimos 12 meses, con sus marcas de tiempo? Si no es así, no podrás superar una auditoría básica.
¿Respetas las señales de opt-out en el momento de la obtención de datos, y no en el del entrenamiento? Robots.txt y X-Robots-Tag ya no son opcionales.
Si tu proveedor de datos cambiara sus condiciones mañana, ¿sobreviviría tu pipeline de entrenamiento? La mayoría de los equipos no se lo han planteado.
Así que compruébalo ahora. Las primeras solicitudes de auditoría están llegando a empresas que pensaban que tenían un año más para resolver esto.
Nuestra postura al respecto
El cumplimiento por diseño (compliance-by-design) no es un eslogan de marketing. Es una decisión de supervivencia para cualquier equipo cuyo producto dependa de los datos web. Los equipos que traten el data lineage como una funcionalidad de prioridad P0 ahora se ahorrarán una carrera brutal en 2027. Los equipos que lo traten como mero papeleo descubrirán, tarde o temprano, que ese papeleo es lo único que se interpone entre su producto y el mercado.
El acceso sin control a los datos de entrenamiento no está terminando porque los reguladores sean vengativos. Está terminando porque las consecuencias de hacerlo mal han pasado de ser una "publicación vergonzosa en un blog" a "no puedes lanzar tu producto en Europa". Eso cambia los cálculos para todos los integrantes de la cadena de suministro.