Wszystkie wpisy

Agregacja ofert nieruchomości na dużą skalę

Portale nieruchomości korzystają z różnych zabezpieczeń anti-bot, układów stron i geolokalizacji. Oto jak agregować oferty na dużą skalę bez utrzymywania sześciu scraperów.

Wyzwanie

Twój zespół wdraża produkt do agregacji ofert. Działa przez trzy tygodnie. Potem Zillow zmienia swój DOM, Rightmove zaostrza weryfikację TLS, a Twój scraper przestaje działać na czterech z sześciu źródeł w ciągu jednego weekendu.

Agregacja nieruchomości wiąże się ze specyficznym problemem, którego nie ma przy monitorowaniu cen czy śledzeniu SERP. Nie pobierasz ustrukturyzowanych danych z jednego czystego API. Sklejasz oferty z portali, z których każdy korzysta z innych zabezpieczeń anti-bot, innych układów stron, innych geolokalizacji i innych częstotliwości aktualizacji. Zillow w USA, Redfin dla danych opartych na MLS, Rightmove w Wielkiej Brytanii, realestate.com.au w Australii, Immobilienscout24 w Niemczech. Każdy portal to osobny projekt inżynieryjny.

Według badań Scrapfly z 2026 roku najpopularniejsze portale nieruchomości badają odciski palców TLS i odrzucają klientów, którzy nie naśladują uścisków dłoni na poziomie przeglądarki. Ich poradnik dotyczący Rightmove omawia JSON osadzony w zmiennych JavaScript, którego struktura zmienia się co kilka miesięcy. Redfin rozprasza dane o nieruchomościach w dziesiątkach węzłów DOM, więc jedna drobna zmiana układu może nagle usunąć połowę Twoich pól. Z kolei portale regionalne serwują różne treści w zależności od kraju odwiedzającego, co oznacza, że scraper zlokalizowany w USA nie zobaczy nic użytecznego na realestate.com.au.

Rezultat: aktualność Twoich ofert spada po cichu. Jedna trzecia nieruchomości staje się nieaktualna w ciągu 48 godzin. Twoi użytkownicy widzą ceny z zeszłego tygodnia. Twój zespół sprzedaży zaczyna spotykać się z oporem, a liczba zgłoszeń do pomocy technicznej gwałtownie rośnie w poniedziałki, ponieważ układy stron portali zwykle zmieniają się w weekendy.

Podejście

Agregacja ofert na dużą skalę to nie problem ze scrapowaniem. To problem z niezawodnością przebrany za coś innego. Artykuł Dlaczego Twój scraper ciągle się psuje opisuje ogólny przypadek. Branża nieruchomości potęguje każdy jego element.

Każda platforma, która dobrze sobie z tym radzi, potrzebuje czterech współdziałających elementów. Po pierwsze, odcisków palców TLS pasujących do prawdziwych przeglądarek (nie tylko ciągu User-Agent o strukturze przeglądarki, ale rzeczywistej kolejności szyfrów i rozszerzeń ClientHello, których Zillow i Rightmove używają do odróżniania botów od ludzi). Po drugie, dokładnych geograficznie rezydencjalnych adresów IP na każdym rynku docelowym, ponieważ niemiecki agregator nie może kierować ruchu z amerykańskich centrów danych na Immobilienscout24 i oczekiwać przydatnych odpowiedzi. Po trzecie, routingu proxy per-host, ponieważ strategia, która działa na Zillow, zawodzi na realestate.com.au. Po czwarte, renderowania w przeglądarce jako rozwiązania awaryjnego dla portali, które przesyłają wszystko po stronie klienta.

Przykładowy request do Rightmove za pośrednictwem produktu Proxy od FourA wygląda mniej więcej tak:

curl -X POST https://api.foura.ai/api/proxy/ \
  -H "x-api-key: YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 5,
    "timeout_ms": 45000,
    "request": {
      "method": "GET",
      "url": "https://www.rightmove.co.uk/properties/123456",
      "unblocker": true,
      "followRedirects": 5,
      "validate": {
        "status": {"accept": [200]},
        "data": {"fail": ["blocked", "access denied"]}
      }
    }
  }'

Flaga unblocker wstrzykuje pełny zestaw nagłówków przeglądarki wraz z pasującym odciskiem palca TLS. Parametr maxTries: 5 nakazuje menedżerowi proxy rotację do pięciu adresów IP, aż jeden z nich zadziała. Reguły walidacji wychwytują ciche blokady: odpowiedzi 200, które zwracają stronę z miękką blokadą zamiast danych oferty. Dzięki temu Twój wskaźnik sukcesu odzwierciedla to, co faktycznie zadziałało, a nie to, co deklarował status HTTP.

Portale, które serwują wszystko przez JavaScript (Redfin to oczywisty przykład), wymagają renderowania w prawdziwej przeglądarce. Nasz produkt Browser obsługuje je za pomocą rzeczywistej instancji Chromium, a nie lekkiego emulatora, który zostaje wykryty przy pierwszym uścisku dłoni. Artykuł Wykrywanie botów stało się behawioralne w 2026 roku pokazuje, że wszystko, co nie jest prawdziwą przeglądarką, staje się coraz łatwiejsze do wykrycia.

Wyniki

Co się dzieje, gdy agregator nieruchomości przechodzi z własnego stosu scrapującego na podejście API-first? Oto wzorce, które widzimy w rzeczywistych wdrożeniach (scenariusz ilustracyjny oparty na benchmarkach branżowych):

  • Aktualność ofert poprawia się z "aktualizowane w ciągu 48 godzin" do "aktualizowane w ciągu 2 godzin" dla aktywnych rynków
  • Czas pracy inżynierów poświęcony na utrzymanie scraperów spada o 70%. Jeden inżynier na dyżurze zamiast dedykowanego zespołu
  • Zasięg portali rośnie z 6 witryn do ponad 20 bez proporcjonalnego wzrostu infrastruktury
  • Wskaźnik cichych blokad spada poniżej 3% na zabezpieczonych portalach, gdy reguły walidacji zaczną wychwytywać miękkie blokady

Jeden ze wzorców u zespołów korzystających z naszej platformy: gdy warstwa niezawodności staje się wspólna, dodanie nowego rynku staje się zmianą konfiguracji, a nie osobnym sprintem. Ciekawe pytania zmieniają się z "dlaczego to znowu przestało działać" na "który portal powinniśmy dodać jako następny".

Uczciwe ograniczenie: portale nieruchomości wymagające zalogowanych sesji (niektóre systemy MLS, niektóre widoki tylko dla agentów) wymagają zarządzania kontami oprócz infrastruktury requestów. To osobny problem, którego nie rozwiązujemy, i nie powinieneś ufać nikomu, kto twierdzi inaczej, nie wyjaśniając, jak to robi.

Kluczowe wnioski

Branża nieruchomości to jedna z niewielu, w których nieaktualne dane to nie tylko niedogodność. To porażka produktu. Tygodniowa cena w sklepie z modą to lekka wpadka. Tygodniowa oferta na gorącym rynku oznacza, że Twój użytkownik właśnie zapytał o dom, który został sprzedany we wtorek.

Jednak zespoły, które wygrywają w tej dziedzinie, to nie te z największą liczbą źródeł. To te, które przestały na nowo budować tę samą infrastrukturę proxy i anti-bot dla każdego nowego portalu. Gdy ta warstwa staje się wspólna, zaczyna się ciekawa praca: jakość danych, SLA aktualności, deduplikacja między portalami, analiza trendów cenowych. To jest produkt. Wszystko pod spodem powinno po prostu działać.