Samowolka w kwestii danych treningowych dla AI dobiega końca
W połowie 2025 roku 75% ruchu sieciowego związanego z AI stanowiło zbieranie danych treningowych (Cloudflare Radar via Bright Data, 2025). Nie inferencja. Nie wyszukiwanie. Trening. Crawlery pobierające strony, aby nakarmić kolejny model.
Ta era właśnie się kończy.
W ciągu ostatnich sześciu miesięcy zbiegły się trzy rzeczy. Wymogi dotyczące przejrzystości w EU AI Act przeszły z fazy projektu do fazy egzekwowania. Witryny zaczęły masowo blokować crawlery AI: pod koniec 2025 roku robiło to już 60% renomowanych domen, w porównaniu do 23% we wrześniu 2023 roku (Ars Technica, 2025). Z kolei nabywcy danych treningowych zaczęli zadawać nowe pytania o to, skąd one pochodzą.
Jeśli budujesz produkt, który wykorzystuje scrapowane dane do trenowania modeli, masz problem, którego większość zespołów jeszcze nie uwzględniła w kosztach.
Czego naprawdę wymaga EU AI Act
Wdrożenie przepisów w 2026 roku wprowadza wymogi przejrzystości dla źródeł danych treningowych AI (podsumowanie Scalevise, 2026). Dostawcy modeli AI ogólnego przeznaczenia muszą publikować podsumowania tego, co do nich trafiło. Autorzy i właściciele praw mogą zgłosić opt-out, a ten sprzeciw musi być respektowany na etapie zbierania danych, a nie na etapie trenowania modelu (kiedy jest już na to za późno).
W praktyce na listach kontrolnych działów zakupów pojawiają się trzy rzeczy:
- Publiczne rejestry tego, które strony były crawlowane, kiedy i na jakich uprawnieniach
- Mechanizmy respektowania robots.txt i wyraźnych sygnałów opt-out
- Historia pochodzenia danych (data lineage), która przetrwa audyt za dwa lata
But tutaj tkwi haczyk: nie da się dokleić zgodności z przepisami (compliance) do pipeline'u, który nie ma pojęcia, co i skąd pobrał. Zespoły, które potraktowały scraping jako projekt poboczny, wkrótce przekonają się, że określenia "projekt poboczny" i "gotowy na audyt" wzajemnie się wykluczają.
W tłumaczeniu na praktykę: wybór dostawcy obejmuje teraz pytanie "czy twój partner w zbieraniu danych może przedstawić czystą ścieżkę audytu?". Tego pytania nie było na większości list kontrolnych w 2024 roku. Do trzeciego kwartału 2026 roku znajdzie się na każdej poważnej liście.
Kwestia brokerów danych stała się trudniejsza
Bright Data zaraportowało ponad 300 milionów dolarów rocznego przychodu przy ponad 50-procentowym wzroście rok do roku i jasno wskazało, że to dane dla AI napędzają ten silnik. Rynek zgodnych z przepisami danych treningowych eksplodował, ponieważ alternatywa (czyli scrapowanie wszystkiego, co popadnie) stała się bardziej ryzykowna z dwóch konkretnych powodów.
Po pierwsze, rozszerzył się obszar ryzyka prawnego. Sąd Najwyższy odrzucił wniosek patentowy Bright Data w lutym 2026 roku, a dwa z ich patentów na residential proxy zostały unieważnione. Oxylabs złożyło pozew wzajemny, a rozprawę wyznaczono na 18 maja 2026 roku. Niezależnie od oceny merytorycznej, skutkiem są kosztowne spory sądowe o to, jak zbiera się dane. Mniejsi gracze, którzy się temu przyglądają, nie mają powodów do spokoju.
Po drugie, rozszerzył się obszar wyzwań technicznych. Dostawcy rozwiązań anti-bot zaczęli w czasie rzeczywistym dzielić się danymi o zagrożeniach między witrynami klientów. Wzorzec scrapingu, który zostanie oflagowany na jednej stronie e-commerce, może zostać zablokowany na setkach innych w ciągu kilku godzin (SecurityBoulevard, 2026). Stara strategia polegająca na rotowaniu tanich proxy i liczeniu na szczęście przestała działać pod koniec 2025 roku. Opisaliśmy tę zmianę w artykule detekcja botów przeszła na analizę behawioralną.
Podsumowując: koszt samodzielnego zbierania danych treningowych wzrósł w obu wymiarach. Ryzyko prawne poszło w górę. Trudność techniczna poszła w górę. Firmy, które nadal robią to na własną rękę, albo wydają realne pieniądze na infrastrukturę, albo godzą się z tym, że ich zbiory danych nie przetrwają audytu.
Dokąd to zmierza do połowy 2027 roku
Uważamy, że kolejne 18 miesięcy przekształci rynek dostawców na trzy sposoby.
Zgodność z przepisami (compliance) staje się absolutnym minimum. ISO 27001, SOC 2, procesy zgodne z RODO, data lineage. To nie są już wyróżniki, ale podstawowe wymagania. Bright Data ma już ISO 27001 i SOC 2. Większość ich konkurentów gorączkowo nadrabia zaległości. Zespoły wdrażające poważne produkty AI odmówią współpracy z dostawcą danych, który nie jest w stanie przedstawić odpowiednich certyfikatów.
Ścieżki audytu stają się kluczową funkcją. Większość dzisiejszych API do scrapingu zwraca dane i odrzuca całą resztę. Do 2027 roku znaczna część klientów będzie wymagać rejestru: źródłowego URL, czasu pobrania, kodu odpowiedzi, statusu robots.txt w momencie pobierania oraz weryfikacji opt-out. Nudne metadane, które stają się kołem ratunkowym w kwestii compliance, gdy ktoś zakwestionuje model.
Konsolidacja dostawców przyspiesza. Koszty compliance faworyzują dużą skalę. Małe API do scrapingu, które utrzymują się z pakietów za 69 dolarów miesięcznie, będą musiały albo wejść na wyższy rynek, albo zostaną wyeliminowane z jakichkolwiek transakcji związanych z trenowaniem AI. Dostawcy z segmentu mid-market, którzy łączą compliance z rozsądnymi cenami, przejmą ten uwolniony popyt. Kalkulacja "budować czy kupić", którą przeanalizowaliśmy w zeszłym miesiącu, stała się jeszcze mniej korzystna dla opcji samodzielnej budowy.
Co to oznacza dla zespołów inżynieryjnych
Jeśli w ciągu najbliższych 12 miesięcy wdrażasz produkt AI, decyzje o pozyskiwaniu danych nie są już tylko kwestią infrastruktury. To kwestia ryzyka prawnego i dostępu do rynku.
Trzy pytania, które musisz zadać w odniesieniu do swojego obecnego pipeline'u:
Czy potrafisz wymienić każdą domenę, którą crawlowałeś w ciągu ostatnich 12 miesięcy, wraz ze znacznikami czasu? Jeśli nie, nie przejdziesz nawet podstawowego audytu.
Czy respektujesz sygnały opt-out w momencie pobierania danych, a nie podczas trenowania? Robots.txt i X-Robots-Tag nie są już opcjonalne.
Gdyby twój dostawca danych zmienił jutro warunki korzystania z usług, czy twój pipeline treningowy by to przetrwał? Większość zespołów nawet się nad tym nie zastanawiała.
Sprawdź to teraz. Pierwsze wnioski o audyt trafiają już do firm, które myślały, że mają jeszcze rok na ogarnięcie tematu.
Nasze stanowisko
Compliance-by-design to nie jest marketingowy slogan. To decyzja o przetrwaniu dla każdego zespołu, którego produkt zależy od danych z sieci. Zespoły, które już teraz traktują data lineage jako funkcję o priorytecie P0, oszczędzą sobie brutalnej walki o przetrwanie w 2027 roku. Te, które widzą w tym tylko papierkową robotę, w końcu przekonają się, że ta papierkowa robota to jedyna rzecz, która stoi między ich produktem a rynkiem.
Samowolka w kwestii danych treningowych nie kończy się dlatego, że regulatorzy są mściwi. Kończy się, ponieważ konsekwencje popełnienia błędu przeniosły się z kategorii "żenujący post na blogu" do "nie możesz wejść na rynek w Europie". To zmienia kalkulację dla każdego uczestnika łańcucha dostaw.