Бесконтрольный сбор обучающих данных для ИИ подходит к концу
В середине 2025 года 75% веб-трафика, связанного с ИИ, приходилось на сбор обучающих данных (Cloudflare Radar via Bright Data, 2025). Не инференс. Не поиск. Обучение. Краулеры собирали страницы, чтобы скормить их следующей модели.
Эта эпоха заканчивается.
За последние шесть месяцев сошлись три фактора. Требования прозрачности в рамках Закона ЕС об ИИ перешли из стадии законопроекта в стадию исполнения. Сайты начали массово блокировать ИИ-краулеры: 60% авторитетных доменов на конец 2025 года по сравнению с 23% в сентябре 2023 года (Ars Technica, 2025). А покупатели обучающих данных начали задавать новые вопросы о том, откуда эти данные берутся.
Если вы создаете продукт, который использует собранные данные для обучения моделей, вы столкнулись с проблемой, которую большинство команд еще не заложили в бюджет.
Что на самом деле требует Закон ЕС об ИИ
Вступление закона в силу в 2026 году вводит требования к прозрачности источников обучающих данных для ИИ (Scalevise summary, 2026). Поставщики ИИ-моделей общего назначения обязаны публиковать отчеты о том, какие данные использовались для их обучения. Авторы и правообладатели могут отказаться от использования своих данных, и этот отказ (opt-out) должен соблюдаться на уровне сбора данных, а не на уровне обучения моделей, когда делать это уже слишком поздно.
На практике в чек-листах закупок появляются три пункта:
- Публичные записи о том, какие сайты вы собирали, когда и на каких основаниях
- Механизмы соблюдения robots.txt и явных сигналов отказа от сбора данных
- История происхождения данных (data lineage), которая выдержит аудит через два года
Но есть подвох: невозможно добавить комплаенс в конвейер данных, который понятия не имеет, что и откуда он скачал. Команды, для которых веб-скрейпинг был второстепенной задачей, скоро обнаружат, что понятия «побочный проект» и «готовность к аудиту» взаимно исключают друг друга.
Простыми словами: выбор поставщика теперь включает вопрос «может ли ваш партнер по сбору данных предоставить чистый аудиторский след?». В 2024 году этого вопроса не было в большинстве чек-листов. К третьему кварталу 2026 года он появится в каждом серьезном списке.
Вопрос с брокерами данных усложнился
Компания Bright Data сообщила о годовой выручке более 300 миллионов долларов с ростом более 50% по сравнению с прошлым годом, и они прямо заявили, что именно данные для ИИ являются главным двигателем этого роста. Рынок легальных обучающих данных взорвался, потому что альтернатива (просто собирать все подряд) стала намного опаснее по двум конкретным причинам.
Во-первых, расширилось юридическое поле противостояния. В феврале 2026 года Верховный суд отклонил патентную петицию Bright Data, а два их патента на резидентные proxy были признаны недействительными. Компания Oxylabs подала встречный иск, судебное разбирательство по которому назначено на 18 мая 2026 года. Что бы вы ни думали о сути спора, результатом стали дорогостоящие судебные процессы о методах сбора данных. Мелкие игроки, наблюдающие за этим, явно не чувствуют себя в безопасности.
Во-вторых, усложнилась техническая сторона. Поставщики систем защиты от ботов начали обмениваться данными об угрозах между клиентскими сайтами в режиме реального времени. Шаблон скрейпинга, замеченный на одном сайте электронной коммерции, может быть заблокирован на сотнях других в течение нескольких часов (SecurityBoulevard, 2026). Старая схема с ротацией дешевых proxy и надеждой на авось перестала работать где-то в конце 2025 года. Мы подробно разбирали этот сдвиг в статье обнаружение ботов перешло на поведенческий анализ.
Объединим эти факторы: стоимость самостоятельного сбора обучающих данных выросла по обоим направлениям. Юридические риски увеличились. Техническая сложность возросла. Компании, которые продолжают делать это своими силами, либо тратят огромные деньги на инфраструктуру, либо смиряются с тем, что их наборы данных не пройдут аудит.
Что произойдет к середине 2027 года
Мы считаем, что следующие 18 месяцев изменят рынок поставщиков в трех направлениях.
Комплаенс становится обязательным условием. ISO 27001, SOC 2, процессы в соответствии с GDPR, история происхождения данных (data lineage). Это больше не конкурентные преимущества, а минимальные требования. Bright Data уже имеет сертификаты ISO 27001 and SOC 2. Большинство их конкурентов пытаются наверстать упущенное. Команды, выпускающие серьезные ИИ-продукты, будут отказываться от работы с поставщиками данных, которые не могут предоставить эти сертификаты.
Аудиторский след становится важной функцией. Большинство современных API для скрейпинга возвращают данные и удаляют все остальное. К 2027 году значительная часть клиентов потребует ведения логов: исходный URL, время запроса, код ответа, статус robots.txt на момент запроса, проверки сигналов отказа от сбора данных. Скучные метаданные, которые превратятся в спасательный круг для комплаенса, если к модели возникнут вопросы.
Консолидация поставщиков ускоряется. Расходы на комплаенс выгодны крупным игрокам. Мелкие API для скрейпинга, выживающие за счет тарифов по 69 долларов в месяц, либо уйдут в более дорогой сегмент, либо будут вытеснены из любых сделок, связанных с обучением ИИ. Поставщики среднего уровня, сочетающие комплаенс с разумными ценами, заберут этот освободившийся спрос. Расчеты «создавать или покупать», которые мы подробно разбирали в прошлом месяце, стали еще менее выгодными для варианта собственной разработки.
Что это значит для инженерных команд
Если вы планируете выпустить ИИ-продукт в ближайшие 12 месяцев, решения об источниках данных больше не являются просто вопросом инфраструктуры. Это вопрос юридических рисков и доступа на рынок.
Три вопроса, которые нужно задать вашей текущей системе сбора данных:
Можете ли вы перечислить все домены, которые собирали за последние 12 месяцев, с указанием точного времени? Если нет, вы не пройдете даже базовый аудит.
Учитываете ли вы сигналы отказа от сбора данных в момент запроса, а не в момент обучения? Файлы robots.txt и заголовки X-Robots-Tag больше не являются необязательными.
Если ваш поставщик данных завтра изменит свои условия, выживет ли ваш процесс обучения моделей? Большинство команд даже не задавались этим вопросом.
Так что проверьте это прямо сейчас. Первые запросы на аудит уже приходят в компании, которые думали, что у них есть еще целый год на подготовку.
Наш вердикт
Проектирование с учетом комплаенса (compliance-by-design) не является маркетинговым лозунгом. Это решение для выживания любой команды, чей продукт зависит от веб-данных. Команды, которые уже сейчас относятся к истории происхождения данных (data lineage) как к задаче с приоритетом P0, избавят себя от жестокой гонки в 2027 году. Те же, кто считает это просто бумажной волокитой, со временем обнаружат, что именно эти бумаги стоят между их продуктом и рынком.
Бесконтрольный сбор обучающих данных прекращается не потому, что регуляторы мстительны. Он прекращается потому, что последствия ошибок перешли из категории «неловкий пост в блоге» в категорию «вы не можете продавать свой продукт в Европе». Это меняет правила игры для всех участников цепочки поставок.