Безконтролното събиране на данни за обучение на AI приключва
В средата на 2025 г. 75% от уеб трафика, свързан с AI, е бил събиране на данни за обучение (Cloudflare Radar via Bright Data, 2025). Не inference. Не търсене. Обучение. Crawlers, събиращи страници, за да захранят следващия модел.
Тази ера приключва.
Три неща се застъпиха през последните шест месеца. Изискванията за прозрачност на Закона на ЕС за AI преминаха от проект в приложими правила. Сайтовете започнаха да блокират AI crawlers масово: 60% от реномираните домейни към края на 2025 г., в сравнение с 23% през септември 2023 г. (Ars Technica, 2025). А купувачите на данни за обучение започнаха да задават нови въпроси за това откъде произлизат те.
Ако изграждате продукт, който използва scraped данни за обучение на модели, имате проблем, който повечето екипи все още не са калкулирали в разходите си.
Какво всъщност изисква Законът на ЕС за AI
Въвеждането през 2026 г. носи изисквания за прозрачност за източниците на данни за обучение на AI (Scalevise summary, 2026). Доставчиците на AI модели с общо предназначение трябва да публикуват обобщения за това какво е влязло в тях. Авторите и носителите на права могат да се откажат (opt out), като този opt-out трябва да бъде зачетен на ниво събиране на данни, а не на ниво обучение на модела (където вече е твърде късно).
На практика три неща се появяват в списъците за проверка при покупки:
- Публични записи за това кои сайтове сте crawled, кога и с какви разрешения
- Механизми за зачитане на robots.txt и явни сигнали за opt-out
- Data lineage, който може да издържи одит след две години
Но уловката е следната: не можете да прикрепите съответствие (compliance) към pipeline, който няма представа какво и откъде е изтеглил. Екипите, които са изградили scraping като страничен проект, са на път да открият, че "страничен проект" и "готовност за одит" са взаимно изключващи се понятия.
Превод: изборът на доставчик вече включва въпроса "може ли вашият партньор за събиране на данни да предостави чиста одитна следа (audit trail)?". Този въпрос не присъстваше в повечето списъци през 2024 г. Но ще бъде във всеки сериозен такъв до Q3 2026.
Въпросът с брокерите на данни стана по-сложен
Bright Data отчете над 300 милиона долара годишни приходи с над 50% ръст на годишна база и те бяха категорични, че данните за AI са двигателят зад това. Пазарът на съвместими данни за обучение експлодира, защото алтернативата (просто да scrap-вате каквото си поискате) стана по-рискована по два конкретни начина.
Първо, правното поле се разшири. Върховният съд отхвърли патентната петиция на Bright Data през февруари 2026 г. и два от техните патенти за residential proxy бяха обявени за невалидни. Oxylabs заведе насрещен иск, като процесът е насрочен за 18 май 2026 г.. Каквото и да мислите за аргументите, резултатът е скъпо съдебно дело за това как се събират данните. По-малките играчи, които наблюдават това, не са спокойни.
Второ, техническото поле се разшири. Доставчиците на решения против ботове започнаха да споделят информация за заплахи (threat intel) между клиентските сайтове в реално време. Даден модел на scraping, който бъде маркиран в един сайт за електронна търговия, може да бъде блокиран в стотици други в рамките на часове (SecurityBoulevard, 2026). Старата стратегия за редуване на евтини proxies и надяване на най-доброто спря да работи някъде в края на 2025 г. Разгледахме тази промяна в засичането на ботове стана поведенческо.
Като съберем всичко: цената на самостоятелното събиране на данни за обучение се повиши и по двете оси. Правният риск нарасна. Техническата трудност се увеличи. Компаниите, които все още го правят сами, или харчат сериозни пари за инфраструктура, или се примиряват с факта, че техните масиви от данни няма да издържат одит.
Накъде отиват нещата до средата на 2027 г.
Смятаме, че следващите 18 месеца ще преформатират пазара на доставчици по три начина.
Съответствието (compliance) става задължително условие. ISO 27001, SOC 2, процеси, съобразени с GDPR, data lineage. Това вече не са предимства, а минимални изисквания. Bright Data вече притежава ISO 27001 и SOC 2. Повечето от техните конкуренти бързат да ги настигнат. Екипите, които доставят сериозни AI продукти, ще отказват да работят с доставчик на събиране на данни, който не може да представи тези сертификати.
Одитните следи (audit trails) стават функционалност. Повечето scraping APIs днес връщат данни и изхвърлят всичко останало. До 2027 г. значителна част от клиентите ще искат запис: източник URL, време на извличане, response код, статус на robots.txt в момента на извличане, проверки за opt-out. Скучни метаданни, които се превръщат в спасителен пояс за съответствие, когато даден модел бъде оспорен.
Консолидацията на доставчиците се ускорява. Разходите за съответствие (compliance) облагодетелстват мащаба. Малките scraping APIs, които оцеляват с планове от $69 на месец, или ще се насочат към по-високия сегмент на пазара, или ще бъдат изтласкани от всяка сделка, свързана с обучение на AI. Доставчиците от средния сегмент, които съчетават съответствие с разумни цени, ще поемат освободеното търсене. Математиката "изграждане срещу купуване" (build-vs-buy), която разгледахме миналия месец, стана още по-неизгодна за тези, които избират да изграждат сами.
Какво означава това за инженерните екипи
Ако пускате AI продукт през следващите 12 месеца, решенията ви за източници на данни вече не са просто въпрос на инфраструктура. Те са въпрос на правен риск и въпрос на достъп до пазара.
Три неща, които да попитате за текущия си pipeline:
Можете ли да изброите всеки домейн, който сте crawled през последните 12 месеца, с времеви клейма (timestamps)? Ако не, не можете да преминете дори базов одит.
Зачитате ли сигналите за opt-out в момента на извличане (fetch time), а не по време на обучението? Robots.txt и X-Robots-Tag вече не са незадължителни.
Ако вашият доставчик на данни промени условията си утре, ще оцелее ли вашият pipeline за обучение? Повечето екипи не са си задавали този въпрос.
Така че проверете сега. Първите искания за одит вече пристигат в компании, които си мислеха, че имат още една година, за да измислят решение.
Нашата позиция по въпроса
Compliance-by-design не е маркетингов трик. Това е решение за оцеляване за всеки екип, чийто продукт зависи от уеб данни. Екипите, които разглеждат data lineage като P0 функционалност сега, ще си спестят брутално бързане през 2027 г. Екипите, които го третират като просто бумащина, в крайна сметка ще открият, че именно бумащината е това, което стои между техния продукт и пазара.
Безконтролното събиране на данни за обучение не приключва, защото регулаторите са отмъстителни. То приключва, защото последствията от грешките се преместиха от "неудобна публикация в блог" до "не можете да продавате в Европа". Това променя математиката за всеки по веригата на доставки.