Web-Scraping-Tarpits: Wer wirklich hängenbleibt

Websites stellen Fallen für AI-Crawler

Ein Tool namens Nepenthes ging Anfang 2025 viral. Es generiert unendliche Labyrinthe aus gefälschten Webseiten, die jeweils auf weitere gefälschte Seiten verlinken, um Crawler in einer Endlosschleife zu fangen. Der Text auf diesen Seiten? Algorithmisch generiertes Kauderwelsch, entwickelt, um AI-Trainingsdaten mit Müll zu verunreinigen.

Nepenthes ist nicht allein. Projekte wie Locaine und eine wachsende Liste von Open-Source-„Tarpits“ sind auf GitHub aufgetaucht, alle mit demselben Versprechen: Wenn AI-Unternehmen robots.txt nicht respektieren, wehren sich Website-Betreiber mit Gift.

Die Motivation ist verständlich. Eine wissenschaftliche Studie auf arXiv ergab, dass das Blockieren von AI auf seriösen Websites von 23 % im September 2023 auf fast 60 % im Mai 2025 anstieg. Die Analyse von BuzzStream zeigte, dass 79 % der Top-Nachrichtenseiten AI-Trainings-Bots mittlerweile über robots.txt blockieren. Und Cloudflare Radar berichtete, dass Mitte 2025 75 % des AI-bezogenen Web-Traffics für Trainingszwecke generiert wurden, nicht für Suche oder Inferenz.

Aber Tarpits prüfen keine Anmeldedaten. Sie fragen nicht, warum du crawlest. Sie fangen alles ab, was automatisiert aussieht.

Wer wirklich hängenbleibt

Die eigentlichen Ziele sind offensichtlich: GPTBot, ClaudeBot, die Crawler der AI-Unternehmen, die das freie Web für Trainingsdaten absuchen. Das Problem ist, dass Tarpits den Unterschied zwischen dem Crawler von OpenAI und deinem Preismonitoring-Skript nicht erkennen können.

Tarpits erkennen automatisierte Request-Muster. Wenn dein Scraper Links systematisch verfolgt, Seiten in gleichmäßigen Abständen aufruft oder die Ausführung von JavaScript überspringt (so wie die meisten AI-Trainings-Crawler arbeiten), sieht er wie ein Ziel aus. Der Falle ist es egal, dass du ein 10-köpfiges E-Commerce-Team bist, das die Preise der Konkurrenz verfolgt. Sie sieht Bot-Traffic und liefert gefälschte Seiten aus.

Das ist nicht nur Theorie. Untersuchungen von Rutgers und Wharton ergaben, dass Websites, die AI-Crawler blockieren, einen Rückgang des Gesamt-Traffics um 23,1 % und einen Rückgang des menschlichen Traffics um 13,9 % verzeichneten. Die aggressive Blockierhaltung stoppt nicht nur AI-Scraper. Sie schadet auch der Sichtbarkeit der Website selbst.

Und Tarpits gehen noch weiter: Sie verschwenden aktiv Rechenleistung, Speicher und Bandbreite eines Crawlers, während sie ihn mit Daten füttern, die das Modell oder die Datenbank, die er aufbaut, verschlechtern.

Die Eskalationsleiter

Robots.txt war schon immer ein Gentleman’s Agreement. Es funktionierte, solange sich alle an die Regeln hielten. Als große AI-Unternehmen begannen, es zu ignorieren (oder kreative Interpretationen von „Crawling für die Suche“ vs. „Crawling für das Training“ zu finden), eskalierten die Website-Betreiber.

Das Muster sieht so aus:

Robots.txt-Blockaden: die höfliche Bitte
User-Agent-Filterung: Blockieren bekannter AI-Crawler-Signaturen
Verhaltenserkennung: Erkennen unbekannter Crawler anhand ihrer Request-Muster
Tarpits: aktive Gegenmaßnahmen, die Ressourcen verschwenden und Daten vergiften

Jeder Schritt fängt mehr Bedrohungen ab. Jeder Schritt erfasst aber auch mehr legitimen Traffic. Bei Schritt vier behandelst du jeden automatisierten Zugriff als feindselig. Ein Scraper, der öffentlich zugängliche Produktpreise für einen Vergleichsdienst sammelt, läuft also in dieselben Fallen wie GPTBot, der Daten ohne Erlaubnis sammelt.

Was Datenteams jetzt tun sollten

Wenn du Datenerfassung in irgendeinem größeren Stil betreibst, ändern Tarpits die Regeln. Einige Dinge sind jetzt wichtiger als früher.

Respektiere immer die robots.txt. Das klingt banal, ist heute aber Grundvoraussetzung. Websites nutzen robots.txt as ersten Filter. Wenn du sie ignorierst, stellst du dich auf eine Stufe mit den AI-Trainings-Bots, die diese ganze Tarpit-Reaktion überhaupt erst ausgelöst haben.

Sieh nicht wie ein Trainings-Crawler aus. AI-Trainings-Crawler haben vorhersehbare Signaturen: Sie folgen jedem Link, rufen Seiten in großen Mengen ab, überspringen JavaScript und halten regelmäßige Intervalle ein. Wenn dein Scraper dasselbe tut, schlägt die Verhaltenserkennung an. Variiere dein Timing. Lade nur, was du brauchst. Führe JavaScript aus, wenn die Website es erfordert. Wir haben in Why Your Web Scraper Keeps Breaking darüber geschrieben, warum Scraper blockiert werden.

Validiere eingehende Daten. Tarpits liefern plausibel aussehenden Müll. Wenn du die Responses in deiner Pipeline nicht überprüfst, speicherst du am Ende vielleicht Markov-generierten Text als echte Produktbeschreibungen. Mache die Validierung zu einem Kernschritt, nicht zu einer Nebensache.

Investiere in deine Request-Infrastruktur. Das alte Rezept (IPs rotieren, CAPTCHAs lösen, bei Fehlern wiederholen) reicht nicht mehr aus. Moderne Anti-Bot-Systeme analysieren TLS-Fingerprints, Browserverhalten und Sitzungsmuster. Smart proxy routing hilft, aber der eigentliche Wandel vollzieht sich von der Erkennung auf IP-Ebene hin zur Erkennung auf Verhaltensebene. Wenn du JavaScript-lastige Websites scrapest, ist die browser-based collection zunehmend der einzige zuverlässige Ansatz.

Die Kluft beim Zugriff vergrößert sich

Wir glauben, dass sich das Web in zwei Lager spaltet. Auf der einen Seite: Websites, die Daten durch kostenpflichtige Zugriffsvereinbarungen, API-Partnerschaften und lizenziertes Crawling monetarisieren. Auf der anderen Seite: Websites, die jeden automatisierten Zugriff als Bedrohung betrachten und zunehmend aggressive Gegenmaßnahmen ergreifen.

Für Datenteams bedeutet dies, dass die Kosten für die Erfassung weiter steigen werden. Nicht, weil die Technologie schwieriger zu bauen ist, sondern weil die Umgebung feindseliger wird. Die Teams, die in verantwortungsvolle, transparente Scraping-Praktiken investieren, werden ihren Zugriff behalten. Diejenigen, die wie Trainings-Bots aussehen, werden gefangen, vergiftet und ausgesperrt.

Tarpits werden nicht verschwinden. Die Frage für dein Team ist nicht, ob du dir Sorgen machen musst. Sondern ob deine Infrastruktur den Unterschied zwischen einer echten Seite und einer Falle erkennen kann, bevor diese Daten in deiner Datenbank landen.