Всички публикации

Агрегиране на обяви за недвижими имоти в голям мащаб

Порталите за недвижими имоти използват различни anti-bot стекове, оформления и геолокации. Ето как да агрегирате обяви в голям мащаб, без да поддържате шест скрейпъра.

Предизвикателството

Вашият екип пуска продукт за обяви. Той работи в продължение на три седмици. След това Zillow променя своя DOM, Rightmove затяга своите TLS проверки и вашият скрейпър спира да работи за четири от шест източника в рамките на един уикенд.

Агрегирането на недвижими имоти има специфичен проблем, който мониторингът на цените и проследяването на SERP не споделят. Вие не извличате структурирани данни от едно чисто API. Вие сглобявате обяви от портали, всеки от които използва различни anti-bot стекове, различни оформления, различни геолокации и различна честота на обновяване. Zillow в САЩ, Redfin за данни, подкрепени от MLS, Rightmove в Обединеното кралство, realestate.com.au в Австралия, Immobilienscout24 в Германия. Всеки портал е отделен инженерен проект.

Според проучването на Scrapfly от 2026 г. водещите портали за недвижими имоти проверяват TLS fingerprints и отхвърлят клиенти, които не имитират handshakes на ниво браузър. Тяхното ръководство за Rightmove разглежда подробно JSON, вграден в JavaScript променливи, който променя структурата си на всеки няколко месеца. Redfin фрагментира данните за имотите в десетки DOM възли, така че една малка промяна в оформлението може да премахне половината от полетата ви наведнъж. А регионалните портали показват различно съдържание в зависимост от държавата на посетителя, което означава, че базиран в САЩ скрейпър не вижда нищо полезно в realestate.com.au.

Резултатът: актуалността на вашите обяви се влошава незабележимо. Една трета от вашите имоти остаряват в рамките на 48 часа. Вашите потребители виждат цени от миналата седмица. Вашият екип по продажбите започва да среща съпротива, а тикетите ви за поддръжка скачат в понеделник, тъй като оформленията на порталите обикновено се променят през уикендите.

Подходът

Агрегирането на обяви в голям мащаб не е проблем на скрейпинга. Това е проблем с надеждността, маскиран като такъв. Защо вашият скрейпър продължава да се чупи обхваща общия случай. Недвижимите имоти засилват всяка част от него.

Всяка платформа, която се справя добре с това, се нуждае от четири неща, работещи в синхрон. Първо, TLS fingerprints, които съвпадат с реални браузъри (не просто подобен на браузър User-Agent низ, а действителната последователност от шифри и ClientHello разширения, които Zillow и Rightmove използват, за да разграничат ботовете от хората). Второ, географски точни residential IPs на всеки целеви пазар, тъй като немски агрегатор не може да изпраща трафик от американски центрове за данни към Immobilienscout24 и да очаква полезни отговори. Трето, proxy routing за всеки хост, тъй като стратегията, която работи за Zillow, се проваля при realestate.com.au. Четвърто, рендериране в браузъра като резервен вариант за портали, които изпращат всичко към клиента.

Примерна request към Rightmove през Proxy продукта на FourA изглежда по следния начин:

curl -X POST https://api.foura.ai/api/proxy/ \
  -H "x-api-key: YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 5,
    "timeout_ms": 45000,
    "request": {
      "method": "GET",
      "url": "https://www.rightmove.co.uk/properties/123456",
      "unblocker": true,
      "followRedirects": 5,
      "validate": {
        "status": {"accept": [200]},
        "data": {"fail": ["blocked", "access denied"]}
      }
    }
  }'

Флагът unblocker инжектира пълен набор от браузърни header-и заедно със съвпадащия TLS fingerprint. maxTries: 5 указва на proxy мениджъра да ротира до пет IP адреса, докато някой успее. Правилата за валидиране улавят незабележимите блокирания: 200 responses, които връщат страница с меко блокиране вместо данни за обявата. Така вашият процент на успеваемост отразява това, което действително е проработило, а не това, което HTTP статусът твърди.

Порталите, които предоставят всичко чрез JavaScript (Redfin е очевидният пример), се нуждаят от реално рендериране в браузъра. Нашият Browser продукт се справя с тях чрез действителна Chromium инстанция, а не с лек емулатор, който бива засечен още при първия handshake. Засичането на ботове стана поведенческо през 2026 г. и всичко по-малко от реален браузър става все по-лесно забележимо.

Резултати

Какво се случва, когато агрегатор на недвижими имоти премине от персонализиран скрейпинг стек към API-first подход? Моделите, които виждаме в реални операции (илюстративен сценарий, базиран на индустриални бенчмаркове):

  • Актуалността на обявите се подобрява от „обновени в рамките на 48 часа“ до „обновени в рамките на 2 часа“ за активни пазари
  • Инженерното време за поддръжка на скрейпъри намалява със 70%. Един дежурен инженер вместо специално заделен екип
  • Покритието на портали се разширява от 6 сайта до над 20 без пропорционално увеличение на инфраструктурата
  • Процентът на незабележими блокирания пада под 3% за защитени портали, след като правилата за валидиране започнат да улавят меките блокирания

Един модел при екипите, използващи нашата платформа: след като слоят за надеждност стане споделен, добавянето на нов пазар се превръща в промяна на конфигурацията вместо в цял спринт. Интересните въпроси се изместват от „защо това се счупи отново“ към „кой портал трябва да добавим следващия“.

Честното ограничение: порталите за недвижими имоти, които изискват сесии с влизане в профила (някои MLS системи, определени изгледи само за агенти), се нуждаят от управление на акаунти върху инфраструктурата за request. Това е отделен проблем, който ние не решаваме, и не трябва да се доверявате на никого, който твърди, че го прави, без да обясни как.

Ключов извод

Недвижимите имоти са една от малкото индустрии, в които остарелите данни не са просто неудобство. Това е провал на продукта. Цената от миналата седмица в сайт за мода е леко смущаващо. Обява от миналата седмица на горещ пазар означава, че вашият потребител току-що е направил запитване за къща, която е била продадена във вторник.

Но екипите, които печелят в тази сфера, не са тези с най-много източници. Те са тези, които са спрели да изграждат наново една и съща proxy и anti-bot инфраструктура за всеки нов портал. След като този слой стане споделен, започва интересната работа: качество на данните, SLAs за актуалност, дедупликация между различни портали, анализ на ценовите тенденции. Това е продуктът. Всичко отдолу просто трябва да работи.