Wyzwanie
Twój zespół wdraża produkt do agregacji ofert. Działa przez trzy tygodnie. Potem Zillow zmienia swój DOM, Rightmove zaostrza weryfikację TLS, a Twój scraper przestaje działać na czterech z sześciu źródeł w ciągu jednego weekendu.
Agregacja nieruchomości wiąże się ze specyficznym problemem, którego nie ma przy monitorowaniu cen czy śledzeniu SERP. Nie pobierasz ustrukturyzowanych danych z jednego czystego API. Sklejasz oferty z portali, z których każdy korzysta z innych zabezpieczeń anti-bot, innych układów stron, innych geolokalizacji i innych częstotliwości aktualizacji. Zillow w USA, Redfin dla danych opartych na MLS, Rightmove w Wielkiej Brytanii, realestate.com.au w Australii, Immobilienscout24 w Niemczech. Każdy portal to osobny projekt inżynieryjny.
Według badań Scrapfly z 2026 roku najpopularniejsze portale nieruchomości badają odciski palców TLS i odrzucają klientów, którzy nie naśladują uścisków dłoni na poziomie przeglądarki. Ich poradnik dotyczący Rightmove omawia JSON osadzony w zmiennych JavaScript, którego struktura zmienia się co kilka miesięcy. Redfin rozprasza dane o nieruchomościach w dziesiątkach węzłów DOM, więc jedna drobna zmiana układu może nagle usunąć połowę Twoich pól. Z kolei portale regionalne serwują różne treści w zależności od kraju odwiedzającego, co oznacza, że scraper zlokalizowany w USA nie zobaczy nic użytecznego na realestate.com.au.
Rezultat: aktualność Twoich ofert spada po cichu. Jedna trzecia nieruchomości staje się nieaktualna w ciągu 48 godzin. Twoi użytkownicy widzą ceny z zeszłego tygodnia. Twój zespół sprzedaży zaczyna spotykać się z oporem, a liczba zgłoszeń do pomocy technicznej gwałtownie rośnie w poniedziałki, ponieważ układy stron portali zwykle zmieniają się w weekendy.
Podejście
Agregacja ofert na dużą skalę to nie problem ze scrapowaniem. To problem z niezawodnością przebrany za coś innego. Artykuł Dlaczego Twój scraper ciągle się psuje opisuje ogólny przypadek. Branża nieruchomości potęguje każdy jego element.
Każda platforma, która dobrze sobie z tym radzi, potrzebuje czterech współdziałających elementów. Po pierwsze, odcisków palców TLS pasujących do prawdziwych przeglądarek (nie tylko ciągu User-Agent o strukturze przeglądarki, ale rzeczywistej kolejności szyfrów i rozszerzeń ClientHello, których Zillow i Rightmove używają do odróżniania botów od ludzi). Po drugie, dokładnych geograficznie rezydencjalnych adresów IP na każdym rynku docelowym, ponieważ niemiecki agregator nie może kierować ruchu z amerykańskich centrów danych na Immobilienscout24 i oczekiwać przydatnych odpowiedzi. Po trzecie, routingu proxy per-host, ponieważ strategia, która działa na Zillow, zawodzi na realestate.com.au. Po czwarte, renderowania w przeglądarce jako rozwiązania awaryjnego dla portali, które przesyłają wszystko po stronie klienta.
Przykładowy request do Rightmove za pośrednictwem produktu Proxy od FourA wygląda mniej więcej tak:
curl -X POST https://api.foura.ai/api/proxy/ \
-H "x-api-key: YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{
"maxTries": 5,
"timeout_ms": 45000,
"request": {
"method": "GET",
"url": "https://www.rightmove.co.uk/properties/123456",
"unblocker": true,
"followRedirects": 5,
"validate": {
"status": {"accept": [200]},
"data": {"fail": ["blocked", "access denied"]}
}
}
}'
Flaga unblocker wstrzykuje pełny zestaw nagłówków przeglądarki wraz z pasującym odciskiem palca TLS. Parametr maxTries: 5 nakazuje menedżerowi proxy rotację do pięciu adresów IP, aż jeden z nich zadziała. Reguły walidacji wychwytują ciche blokady: odpowiedzi 200, które zwracają stronę z miękką blokadą zamiast danych oferty. Dzięki temu Twój wskaźnik sukcesu odzwierciedla to, co faktycznie zadziałało, a nie to, co deklarował status HTTP.
Portale, które serwują wszystko przez JavaScript (Redfin to oczywisty przykład), wymagają renderowania w prawdziwej przeglądarce. Nasz produkt Browser obsługuje je za pomocą rzeczywistej instancji Chromium, a nie lekkiego emulatora, który zostaje wykryty przy pierwszym uścisku dłoni. Artykuł Wykrywanie botów stało się behawioralne w 2026 roku pokazuje, że wszystko, co nie jest prawdziwą przeglądarką, staje się coraz łatwiejsze do wykrycia.
Wyniki
Co się dzieje, gdy agregator nieruchomości przechodzi z własnego stosu scrapującego na podejście API-first? Oto wzorce, które widzimy w rzeczywistych wdrożeniach (scenariusz ilustracyjny oparty na benchmarkach branżowych):
- Aktualność ofert poprawia się z "aktualizowane w ciągu 48 godzin" do "aktualizowane w ciągu 2 godzin" dla aktywnych rynków
- Czas pracy inżynierów poświęcony na utrzymanie scraperów spada o 70%. Jeden inżynier na dyżurze zamiast dedykowanego zespołu
- Zasięg portali rośnie z 6 witryn do ponad 20 bez proporcjonalnego wzrostu infrastruktury
- Wskaźnik cichych blokad spada poniżej 3% na zabezpieczonych portalach, gdy reguły walidacji zaczną wychwytywać miękkie blokady
Jeden ze wzorców u zespołów korzystających z naszej platformy: gdy warstwa niezawodności staje się wspólna, dodanie nowego rynku staje się zmianą konfiguracji, a nie osobnym sprintem. Ciekawe pytania zmieniają się z "dlaczego to znowu przestało działać" na "który portal powinniśmy dodać jako następny".
Uczciwe ograniczenie: portale nieruchomości wymagające zalogowanych sesji (niektóre systemy MLS, niektóre widoki tylko dla agentów) wymagają zarządzania kontami oprócz infrastruktury requestów. To osobny problem, którego nie rozwiązujemy, i nie powinieneś ufać nikomu, kto twierdzi inaczej, nie wyjaśniając, jak to robi.
Kluczowe wnioski
Branża nieruchomości to jedna z niewielu, w których nieaktualne dane to nie tylko niedogodność. To porażka produktu. Tygodniowa cena w sklepie z modą to lekka wpadka. Tygodniowa oferta na gorącym rynku oznacza, że Twój użytkownik właśnie zapytał o dom, który został sprzedany we wtorek.
Jednak zespoły, które wygrywają w tej dziedzinie, to nie te z największą liczbą źródeł. To te, które przestały na nowo budować tę samą infrastrukturę proxy i anti-bot dla każdego nowego portalu. Gdy ta warstwa staje się wspólna, zaczyna się ciekawa praca: jakość danych, SLA aktualności, deduplikacja między portalami, analiza trendów cenowych. To jest produkt. Wszystko pod spodem powinno po prostu działać.