Alle Beiträge

Immobilien-Listings im großen Stil aggregieren

Immobilienportale nutzen unterschiedliche Anti-Bot-Stacks, Layouts und Geografien. Hier erfährst du, wie du Listings im großen Stil aggregierst, ohne sechs Scraper warten zu müssen.

Die Herausforderung

Dein Team bringt ein Listing-Produkt auf den Markt. Es funktioniert drei Wochen lang. Dann ändert Zillow sein DOM, Rightmove verschärft seine TLS-Prüfungen und dein Scraper fällt an einem einzigen Wochenende bei vier von sechs Quellen aus.

Die Aggregation von Immobilien hat ein spezifisches Problem, das Preisüberwachung und SERP-Tracking nicht teilen. Du ziehst keine strukturierten Daten aus einer sauberen API. Du bastelst Listings von Portalen zusammen, die jeweils unterschiedliche Anti-Bot-Stacks, unterschiedliche Layouts, unterschiedliche Geografien und unterschiedliche Update-Zyklen verwenden. Zillow in den USA, Redfin für MLS-gestützte Daten, Rightmove in Großbritannien, realestate.com.au in Australien, Immobilienscout24 in Deutschland. Jedes Portal ist ein eigenes Engineering-Projekt.

Laut Scrapflys Untersuchung aus dem Jahr 2026 prüfen die führenden Immobilienportale TLS-Fingerprints und weisen Clients ab, die keine Handshakes auf Browser-Niveau imitieren. Ihr Rightmove-Leitfaden führt durch in JavaScript-Variablen eingebettetes JSON, dessen Struktur sich alle paar Monate ändert. Redfin fragmentiert Objektdaten über Dutzende von DOM-Nodes, sodass eine einzige Layout-Änderung auf einen Schlag die Hälfte deiner Felder unbrauchbar machen kann. Und regionale Portale liefern unterschiedliche Inhalte basierend auf dem Land des Besuchers, was bedeutet, dass ein in den USA ansässiger Scraper auf realestate.com.au nichts Nützliches sieht.

Das Ergebnis: Die Aktualität deiner Listings verschlechtert sich unbemerkt. Ein Drittel deiner Immobilien veraltet innerhalb von 48 Stunden. Deine Nutzer sehen Preise von letzter Woche. Dein Vertriebsteam bekommt Gegenwind und deine Support-Tickets schnellen montags in die Höhe, weil Portal-Layouts sich meist am Wochenende ändern.

Der Ansatz

Listings im großen Stil zu aggregieren ist kein Scraping-Problem. Es ist ein Zuverlässigkeitsproblem im Gewand eines Scraping-Problems. Warum dein Scraper ständig ausfällt behandelt den allgemeinen Fall. Immobilien verstärken jeden Teil davon.

Jede Plattform, die das gut löst, benötigt vier Dinge, die zusammenarbeiten. Erstens: TLS-Fingerprints, die echten Browsern entsprechen (nicht nur ein wie ein Browser geformter User-Agent-String, sondern die tatsächliche Cipher-Reihenfolge und ClientHello-Erweiterungen, mit denen Zillow und Rightmove Bots von Menschen unterscheiden). Zweitens: geografisch präzise Residential-IPs in jedem Zielmarkt, denn ein deutscher Aggregator kann keinen US-Rechenzentrums-Traffic an Immobilienscout24 senden und nützliche Antworten erwarten. Drittens: Proxy-Routing pro Host, da die Strategie, die bei Zillow funktioniert, bei realestate.com.au fehlschlägt. Viertens: Browser-Rendering als Fallback für Portale, die alles clientseitig ausspielen.

Ein Beispiel-Request gegen Rightmove über das Proxy-Produkt von FourA sieht etwa so aus:

curl -X POST https://api.foura.ai/api/proxy/ \
  -H "x-api-key: YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 5,
    "timeout_ms": 45000,
    "request": {
      "method": "GET",
      "url": "https://www.rightmove.co.uk/properties/123456",
      "unblocker": true,
      "followRedirects": 5,
      "validate": {
        "status": {"accept": [200]},
        "data": {"fail": ["blocked", "access denied"]}
      }
    }
  }'

Das unblocker-Flag injiziert ein vollständiges Set von Browser-Headern zusammen mit dem passenden TLS-Fingerprint. maxTries: 5 weist den Proxy-Manager an, bis zu fünf IPs durchzurotieren, bis eine erfolgreich ist. Die Validierungsregeln fangen stille Blocks ab: die 200er-Antworten, die eine Soft-Block-Seite anstelle von Listing-Daten zurückgeben. So spiegelt deine Erfolgsquote wider, was tatsächlich funktioniert hat, und nicht, was der HTTP-Status behauptet hat.

Portale, die alles über JavaScript ausliefern (Redfin ist das offensichtliche Beispiel), benötigen echtes Browser-Rendering. Unser Browser-Produkt verarbeitet diese mit einer echten Chromium-Instanz, nicht mit einem leichtgewichtigen Emulator, der schon beim ersten Handshake auffliegt. Bot-Erkennung wurde verhaltensbasiert im Jahr 2026, und alles, was kein echter Browser ist, wird immer leichter erkannt.

Ergebnisse

Was passiert, wenn ein Immobilien-Aggregator von einem maßgeschneiderten Scraping-Stack auf einen API-First-Ansatz umstellt? Die Muster, die wir bei realen Einsätzen beobachten (illustratives Szenario basierend auf Branchen-Benchmarks):

  • Aktualität der Listings verbessert sich in aktiven Märkten von „aktualisiert innerhalb von 48 Stunden“ auf „aktualisiert innerhalb von 2 Stunden“
  • Engineering-Zeit für die Scraper-Wartung sinkt um 70 %. Ein Engineer im Bereitschaftsdienst statt eines dedizierten Teams
  • Portal-Abdeckung erweitert sich von 6 auf über 20 Websites ohne proportionalen Anstieg der Infrastruktur
  • Stille Block-Raten fallen auf geschützten Portalen unter 3 %, sobald Validierungsregeln Soft-Blocks abfangen

Ein Muster bei Teams, die unsere Plattform nutzen: Sobald die Zuverlässigkeitsschicht geteilt wird, wird das Hinzufügen eines neuen Marktes zu einer Konfigurationsänderung statt zu einem Sprint. Die interessanten Fragen verschieben sich von „Warum ist das schon wieder kaputtgegangen?“ zu „Welches Portal sollten wir als Nächstes hinzufügen?“.

Die ehrliche Einschränkung: Immobilienportale, die eine Anmeldung erfordern (einige MLS-Systeme, bestimmte Ansichten nur für Makler), benötigen eine Account-Verwaltung zusätzlich zur Request-Infrastruktur. Das ist ein separates Problem, das wir nicht lösen, und du solltest niemandem vertrauen, der das behauptet, ohne zu erklären, wie.

Das wichtigste Fazit

Immobilien sind eine der wenigen Branchen, in denen veraltete Daten kein bloßes Ärgernis darstellen. Sie sind ein Produktfehler. Ein eine Woche alter Preis auf einer Mode-Website ist leicht peinlich. Ein eine Woche altes Listing in einem heißen Markt bedeutet, dass dein Nutzer gerade ein Haus angefragt hat, das am Dienstag verkauft wurde.

But die Teams, die hier gewinnen, sind nicht diejenigen mit den meisten Quellen. Es sind diejenigen, die aufgehört haben, für jedes neue Portal dieselbe Proxy- und Anti-Bot-Infrastruktur neu zu bauen. Sobald diese Schicht geteilt wird, beginnt die interessante Arbeit: Datenqualität, SLAs zur Aktualität, portalübergreifende Duplikaterkennung, Preistrendanalysen. Das ist das Produkt. Alles darunter sollte einfach funktionieren.