Alle Beiträge

Der EU AI Act beendet das Wildwest-Szenario bei Trainingsdaten

Die Beschaffung von KI-Trainingsdaten hat sich von einem technischen Problem zu einem Compliance-Problem entwickelt. Der EU AI Act und die strengere Überprüfung von Anbietern verändern die Regeln bis 2027 grundlegend.

Das Wildwest-Szenario bei KI-Trainingsdaten endet

Mitte 2025 machten 75 % des KI-bezogenen Web-Traffics die Beschaffung von Trainingsdaten aus (Cloudflare Radar via Bright Data, 2025). Keine Inference. Keine Suche. Training. Crawler, die Seiten erfassen, um das nächste Modell zu füttern.

Diese Ära geht zu Ende.

In den letzten sechs Monaten kamen drei Entwicklungen zusammen. Die Transparenzanforderungen des EU AI Act wurden vom Entwurf zur durchsetzbaren Pflicht. Websites begannen, KI-Crawler im großen Stil zu blockieren: 60 % der seriösen Domains bis Ende 2025, verglichen mit 23 % im September 2023 (Ars Technica, 2025). Und Käufer von Trainingsdaten stellten plötzlich neue Fragen zur Herkunft der Daten.

Wenn du ein Produkt entwickelst, das gescrapte Daten zum Trainieren von Modellen nutzt, hast du ein Problem, das die meisten Teams noch nicht einkalkuliert haben.

Was der EU AI Act tatsächlich verlangt

Die Einführung im Jahr 2026 bringt Transparenzanforderungen für KI-Trainingsdatenquellen (Scalevise-Zusammenfassung, 2026). Anbieter von KI-Modellen mit allgemeinem Verwendungszweck müssen Zusammenfassungen der genutzten Inhalte veröffentlichen. Urheber und Rechteinhaber können dem widersprechen (Opt-out), und dieses Opt-out muss bereits auf der Ebene der Datenerfassung respektiert werden, nicht erst beim Modelltraining (wo es bereits zu spät ist).

In der Praxis tauchen drei Punkte auf den Beschaffungs-Checklisten auf:

  • Öffentliche Nachweise darüber, welche Websites du wann und mit welchen Berechtigungen gecrawlt hast
  • Mechanismen zur Einhaltung von robots.txt und expliziten Opt-out-Signalen
  • Eine Data-Lineage, die auch einer Prüfung in zwei Jahren standhält

Aber die Sache hat einen Haken: Du kannst Compliance nicht nachträglich an eine Pipeline flanschen, die keine Ahnung hat, was sie woher geladen hat. Teams, die Scraping als Nebenprojekt aufgezogen haben, werden bald feststellen, dass "Nebenprojekt" und "Audit-ready" sich gegenseitig ausschließen.

Das bedeutet: Bei der Anbieterwahl stellt sich nun die Frage "Kann dein Datenerfassungspartner einen sauberen Audit-Trail vorlegen?". Diese Frage stand 2024 auf den wenigsten Checklisten. Bis zum dritten Quartal 2026 wird sie auf jeder ernsthaften Liste stehen.

Die Frage nach dem Datenbroker wird komplizierter

Bright Data meldete einen annualisierten Umsatz von über 300 Millionen US-Dollar mit einem Wachstum von mehr als 50 % im Jahresvergleich und hat explizit klargestellt, dass Daten für KI der Motor dahinter sind. Der Markt für konforme Trainingsdaten explodierte, weil die Alternative (einfach alles zu scrapen, was man will) in zweierlei Hinsicht riskanter wurde.

Erstens hat sich die rechtliche Angriffsfläche vergrößert. Der Supreme Court lehnte die Patentbeschwerde von Bright Data im Februar 2026 ab, und zwei ihrer Patente für Residential-Proxys wurden für ungültig erklärt. Oxylabs reichte Gegenklage ein, wobei der Prozessbeginn für den 18. Mai 2026 angesetzt ist. Unabhängig von der rechtlichen Bewertung führt dies zu teuren Rechtsstreitigkeiten darüber, wie Daten erfasst werden. Kleinere Akteure, die das beobachten, können nicht beruhigt sein.

Zweitens hat sich die technische Angriffsfläche vergrößert. Anti-Bot-Anbieter begannen damit, Bedrohungsdaten in Echtzeit über Kunden-Websites hinweg zu teilen. Ein Scraping-Muster, das auf einer E-Commerce-Website auffällt, kann innerhalb weniger Stunden auf Hunderten anderen blockiert werden (SecurityBoulevard, 2026). Das alte Konzept, billige Proxys durchzuwechseln und auf das Beste zu hoffen, funktioniert seit Ende 2025 nicht mehr. Wir haben diesen Wandel in Die Bot-Erkennung ist verhaltensbasiert geworden beschrieben.

Zusammenfassend lässt sich sagen: Die Kosten für die eigene Erfassung von Trainingsdaten sind in beiden Bereichen gestiegen. Das rechtliche Risiko hat zugenommen. Die technische Schwierigkeit ist gestiegen. Unternehmen, die dies immer noch selbst tun, geben entweder viel Geld für Infrastruktur aus oder nehmen in Kauf, dass ihre Datensätze keinem Audit standhalten.

Wohin die Reise bis Mitte 2027 geht

Wir glauben, dass die nächsten 18 Monate den Anbietermarkt in dreierlei Hinsicht verändern werden.

Compliance wird zur Grundvoraussetzung. ISO 27001, SOC 2, DSGVO-konforme Prozesse, Data-Lineage. Keine Alleinstellungsmerkmale mehr, sondern Mindestanforderungen. Bright Data verfügt bereits über ISO 27001 und SOC 2. Die meisten Wettbewerber geraten unter Druck. Teams, die ernsthafte KI-Produkte entwickeln, werden sich weigern, einen Datenerfassungsanbieter zu nutzen, der diese Zertifikate nicht vorweisen kann.

Audit-Trails werden zum Feature. Die meisten Scraping-APIs liefern heute Daten und verwerfen alles andere. Bis 2027 wird ein erheblicher Teil der Kunden ein Protokoll verlangen: Quell-URL, Abrufzeitpunkt, Response-Code, robots.txt-Status zum Abrufzeitpunkt, Opt-out-Prüfungen. Langweilige Metadaten, die sich als Compliance-Rettungsanker erweisen, wenn ein Modell angefochten wird.

Die Anbieterkonsolidierung beschleunigt sich. Der Compliance-Aufwand begünstigt Skaleneffekte. Kleine Scraping-APIs, die von Tarifen für 69 USD/Monat leben, werden entweder in den gehobenen Markt drängen oder aus allen Deals verdrängt, die das KI-Training betreffen. Mid-Market-Anbieter, die Compliance mit angemessenen Preisen kombinieren, fangen die verdrängte Nachfrage auf. Die Build-vs-Buy-Rechnung, die wir letzten Monat durchgegangen sind, hat sich für die Eigenentwicklung weiter verschlechtert.

Was das für Engineering-Teams bedeutet

Wenn du in den nächsten 12 Monaten ein KI-Produkt auf den Markt bringst, sind deine Entscheidungen zur Datenbeschaffung keine reine Infrastrukturfrage mehr. Sie sind eine Frage des rechtlichen Risikos und des Marktzugangs.

Drei Fragen, die du deiner aktuellen Pipeline stellen solltest:

  1. Kannst du jede Domain auflisten, die du in den letzten 12 Monaten gecrawlt hast, inklusive Zeitstempeln? Wenn nicht, wirst du kein einfaches Audit bestehen.

  2. Respektierst du Opt-out-Signale zum Zeitpunkt des Abrufs und nicht erst beim Training? Robots.txt und X-Robots-Tag sind nicht mehr optional.

  3. Wenn dein Datenanbieter morgen seine Bedingungen ändern würde, würde deine Trainings-Pipeline das überleben? Die meisten Teams haben sich diese Frage noch nicht gestellt.

Prüfe das also jetzt. Die ersten Audit-Anfragen gehen bereits bei Unternehmen ein, die dachten, sie hätten noch ein Jahr Zeit, um das zu klären.

Wie wir das sehen

Compliance-by-Design ist kein Marketing-Slogan. Es ist eine Überlebensentscheidung für jedes Team, dessen Produkt von Webdaten abhängt. Teams, die Data-Lineage jetzt als P0-Feature behandeln, ersparen sich 2027 eine hektische Aufholjagd. Teams, die es als reine Bürokratie abtun, werden irgendwann feststellen, dass genau diese Bürokratie zwischen ihrem Produkt und dem Markt steht.

Das Wildwest-Szenario bei Trainingsdaten endet nicht, weil die Regulierungsbehörden nachtragend sind. Es endet, weil die Folgen von Fehlern nicht mehr nur ein "peinlicher Blogbeitrag" sind, sondern bedeuten, dass du in Europa nicht an den Start gehen darfst. Das ändert die Kalkulation für jeden in der Lieferkette.