Agregacja ofert nieruchomości na dużą skalę

Wyzwanie

Twój zespół wdraża produkt do agregacji ofert. Działa przez trzy tygodnie. Potem Zillow zmienia swój DOM, Rightmove zaostrza weryfikację TLS, a Twój scraper przestaje działać na czterech z sześciu źródeł w ciągu jednego weekendu.

Agregacja nieruchomości wiąże się ze specyficznym problemem, którego nie ma przy monitorowaniu cen czy śledzeniu SERP. Nie pobierasz ustrukturyzowanych danych z jednego czystego API. Sklejasz oferty z portali, z których każdy korzysta z innych zabezpieczeń anti-bot, innych układów stron, innych geolokalizacji i innych częstotliwości aktualizacji. Zillow w USA, Redfin dla danych opartych na MLS, Rightmove w Wielkiej Brytanii, realestate.com.au w Australii, Immobilienscout24 w Niemczech. Każdy portal to osobny projekt inżynieryjny.

Według badań Scrapfly z 2026 roku najpopularniejsze portale nieruchomości badają odciski palców TLS i odrzucają klientów, którzy nie naśladują uścisków dłoni na poziomie przeglądarki. Ich poradnik dotyczący Rightmove omawia JSON osadzony w zmiennych JavaScript, którego struktura zmienia się co kilka miesięcy. Redfin rozprasza dane o nieruchomościach w dziesiątkach węzłów DOM, więc jedna drobna zmiana układu może nagle usunąć połowę Twoich pól. Z kolei portale regionalne serwują różne treści w zależności od kraju odwiedzającego, co oznacza, że scraper zlokalizowany w USA nie zobaczy nic użytecznego na realestate.com.au.

Rezultat: aktualność Twoich ofert spada po cichu. Jedna trzecia nieruchomości staje się nieaktualna w ciągu 48 godzin. Twoi użytkownicy widzą ceny z zeszłego tygodnia. Twój zespół sprzedaży zaczyna spotykać się z oporem, a liczba zgłoszeń do pomocy technicznej gwałtownie rośnie w poniedziałki, ponieważ układy stron portali zwykle zmieniają się w weekendy.

Podejście

Agregacja ofert na dużą skalę to nie problem ze scrapowaniem. To problem z niezawodnością przebrany za coś innego. Artykuł Dlaczego Twój scraper ciągle się psuje opisuje ogólny przypadek. Branża nieruchomości potęguje każdy jego element.

Każda platforma, która dobrze sobie z tym radzi, potrzebuje czterech współdziałających elementów. Po pierwsze, odcisków palców TLS pasujących do prawdziwych przeglądarek (nie tylko ciągu User-Agent o strukturze przeglądarki, ale rzeczywistej kolejności szyfrów i rozszerzeń ClientHello, których Zillow i Rightmove używają do odróżniania botów od ludzi). Po drugie, dokładnych geograficznie rezydencjalnych adresów IP na każdym rynku docelowym, ponieważ niemiecki agregator nie może kierować ruchu z amerykańskich centrów danych na Immobilienscout24 i oczekiwać przydatnych odpowiedzi. Po trzecie, routingu proxy per-host, ponieważ strategia, która działa na Zillow, zawodzi na realestate.com.au. Po czwarte, renderowania w przeglądarce jako rozwiązania awaryjnego dla portali, które przesyłają wszystko po stronie klienta.

Przykładowy request do Rightmove za pośrednictwem produktu Proxy od FourA wygląda mniej więcej tak:

curl -X POST https://api.foura.ai/api/proxy/ \
  -H "x-api-key: YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 5,
    "timeout_ms": 45000,
    "request": {
      "method": "GET",
      "url": "https://www.rightmove.co.uk/properties/123456",
      "unblocker": true,
      "followRedirects": 5,
      "validate": {
        "status": {"accept": [200]},
        "data": {"fail": ["blocked", "access denied"]}
      }
    }
  }'

Flaga unblocker wstrzykuje pełny zestaw nagłówków przeglądarki wraz z pasującym odciskiem palca TLS. Parametr maxTries: 5 nakazuje menedżerowi proxy rotację do pięciu adresów IP, aż jeden z nich zadziała. Reguły walidacji wychwytują ciche blokady: odpowiedzi 200, które zwracają stronę z miękką blokadą zamiast danych oferty. Dzięki temu Twój wskaźnik sukcesu odzwierciedla to, co faktycznie zadziałało, a nie to, co deklarował status HTTP.

Portale, które serwują wszystko przez JavaScript (Redfin to oczywisty przykład), wymagają renderowania w prawdziwej przeglądarce. Nasz produkt Browser obsługuje je za pomocą rzeczywistej instancji Chromium, a nie lekkiego emulatora, który zostaje wykryty przy pierwszym uścisku dłoni. Artykuł Wykrywanie botów stało się behawioralne w 2026 roku pokazuje, że wszystko, co nie jest prawdziwą przeglądarką, staje się coraz łatwiejsze do wykrycia.

Wyniki

Co się dzieje, gdy agregator nieruchomości przechodzi z własnego stosu scrapującego na podejście API-first? Oto wzorce, które widzimy w rzeczywistych wdrożeniach (scenariusz ilustracyjny oparty na benchmarkach branżowych):

Aktualność ofert poprawia się z "aktualizowane w ciągu 48 godzin" do "aktualizowane w ciągu 2 godzin" dla aktywnych rynków
Czas pracy inżynierów poświęcony na utrzymanie scraperów spada o 70%. Jeden inżynier na dyżurze zamiast dedykowanego zespołu
Zasięg portali rośnie z 6 witryn do ponad 20 bez proporcjonalnego wzrostu infrastruktury
Wskaźnik cichych blokad spada poniżej 3% na zabezpieczonych portalach, gdy reguły walidacji zaczną wychwytywać miękkie blokady

Jeden ze wzorców u zespołów korzystających z naszej platformy: gdy warstwa niezawodności staje się wspólna, dodanie nowego rynku staje się zmianą konfiguracji, a nie osobnym sprintem. Ciekawe pytania zmieniają się z "dlaczego to znowu przestało działać" na "który portal powinniśmy dodać jako następny".

Uczciwe ograniczenie: portale nieruchomości wymagające zalogowanych sesji (niektóre systemy MLS, niektóre widoki tylko dla agentów) wymagają zarządzania kontami oprócz infrastruktury requestów. To osobny problem, którego nie rozwiązujemy, i nie powinieneś ufać nikomu, kto twierdzi inaczej, nie wyjaśniając, jak to robi.

Kluczowe wnioski

Branża nieruchomości to jedna z niewielu, w których nieaktualne dane to nie tylko niedogodność. To porażka produktu. Tygodniowa cena w sklepie z modą to lekka wpadka. Tygodniowa oferta na gorącym rynku oznacza, że Twój użytkownik właśnie zapytał o dom, który został sprzedany we wtorek.

Jednak zespoły, które wygrywają w tej dziedzinie, to nie te z największą liczbą źródeł. To te, które przestały na nowo budować tę samą infrastrukturę proxy i anti-bot dla każdego nowego portalu. Gdy ta warstwa staje się wspólna, zaczyna się ciekawa praca: jakość danych, SLA aktualności, deduplikacja między portalami, analiza trendów cenowych. To jest produkt. Wszystko pod spodem powinno po prostu działać.