Tous les articles

Agrégation d'annonces immobilières à grande échelle

Les portails immobiliers utilisent des piles anti-bots, des mises en page et des géographies différentes. Voici comment agréger des annonces à grande échelle sans maintenir six scrapers.

Le défi

Votre équipe déploie un produit d'annonces. Il fonctionne pendant trois semaines. Puis Zillow modifie son DOM, Rightmove renforce ses vérifications TLS, et votre scraper cesse de fonctionner sur quatre sources sur six en un seul week-end.

L'agrégation immobilière présente un problème spécifique que le suivi des prix et le suivi SERP ne partagent pas. Vous n'extrayez pas de données structurées depuis une API propre. Vous assemblez des annonces provenant de portails qui utilisent chacun des piles anti-bots, des mises en page, des géographies et des cadences de mise à jour différentes. Zillow aux États-Unis, Redfin pour les données issues de MLS, Rightmove au Royaume-Uni, realestate.com.au en Australie, Immobilienscout24 en Allemagne. Chaque portail est un projet d'ingénierie à part entière.

Selon les recherches de Scrapfly en 2026, les principaux portails immobiliers inspectent les empreintes TLS et rejettent les clients qui n'imitent pas les handshakes de niveau navigateur. Leur guide Rightmove détaille le JSON intégré dans des variables JavaScript dont la structure change tous les quelques mois. Redfin fragmente les données de propriété sur des dizaines de nœuds DOM, de sorte qu'un simple ajustement de mise en page peut faire disparaître la moitié de vos champs d'un coup. De plus, les portails régionaux affichent un contenu différent selon le pays du visiteur, ce qui signifie qu'un scraper basé aux États-Unis ne verra rien d'utile sur realestate.com.au.

Résultat : la fraîcheur de vos annonces se dégrade silencieusement. Un tiers de vos propriétés deviennent obsolètes en 48 heures. Vos utilisateurs voient des prix de la semaine dernière. Votre équipe commerciale commence à recevoir des réclamations, et vos tickets de support grimpent en flèche le lundi car les mises en page des portails ont tendance à changer le week-end.

L'approche

L'agrégation d'annonces à grande échelle n'est pas un problème de scraping. C'est un problème de fiabilité qui se cache sous cette apparence. L'article Pourquoi votre scraper continue de casser traite du cas général. L'immobilier en amplifie chaque aspect.

Toute plateforme qui gère cela correctement a besoin de quatre éléments fonctionnant ensemble. Premièrement, des empreintes TLS qui correspondent à de vrais navigateurs (pas seulement une chaîne User-Agent en forme de navigateur, mais l'ordre réel des ciphers et les extensions ClientHello que Zillow et Rightmove utilisent pour distinguer les bots des humains). Deuxièmement, des IP résidentielles géographiquement précises sur chaque marché cible, car un agrégateur allemand ne peut pas envoyer de trafic de datacenter américain vers Immobilienscout24 et s'accorder à des réponses utiles. Troisièmement, un routage de proxy par hôte, car la stratégie qui fonctionne sur Zillow échoue sur realestate.com.au. Quatrièmement, le rendu de navigateur comme solution de repli pour les portails qui poussent tout côté client.

Une requête d'exemple vers Rightmove via le produit Proxy de FourA ressemble à ceci :

curl -X POST https://api.foura.ai/api/proxy/ \
  -H "x-api-key: YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "maxTries": 5,
    "timeout_ms": 45000,
    "request": {
      "method": "GET",
      "url": "https://www.rightmove.co.uk/properties/123456",
      "unblocker": true,
      "followRedirects": 5,
      "validate": {
        "status": {"accept": [200]},
        "data": {"fail": ["blocked", "access denied"]}
      }
    }
  }'

Le drapeau unblocker injecte un ensemble complet de headers de navigateur aux côtés de l'empreinte TLS correspondante. maxTries: 5 indique au gestionnaire de proxy de faire tourner jusqu'à cinq IP jusqu'à ce que l'une d'elles réussisse. Les règles de validation capturent les blocages silencieux : les réponses 200 qui renvoient une page de blocage doux au lieu des données de l'annonce. Ainsi, votre taux de réussite reflète ce qui a réellement fonctionné, et non ce que le statut HTTP prétendait.

Les portails qui servent tout via JavaScript (Redfin en est l'exemple évident) nécessitent un rendu de navigateur réel. Notre produit Browser gère cela avec une véritable instance Chromium, et non un émulateur léger qui se fait repérer dès le premier handshake. La détection de bots est devenue comportementale en 2026, et tout ce qui est inférieur à un vrai navigateur est de plus en plus visible.

Résultats

Que se passe-t-il lorsqu'un agrégateur immobilier passe d'une pile de scraping personnalisée à une approche API-first ? Les schémas que nous observons sur des opérations réelles (scénario illustratif basé sur les références du secteur) :

  • La fraîcheur des annonces passe de « mis à jour sous 48 heures » à « mis à jour sous 2 heures » pour les marchés actifs
  • Le temps d'ingénierie consacré à la maintenance des scrapers chute de 70 %. Un seul ingénieur en rotation au lieu d'une équipe dédiée
  • La couverture des portails passe de 6 sites à plus de 20 sans augmentation proportionnelle de l'infrastructure
  • Les taux de blocage silencieux tombent sous la barre des 3 % sur les portails protégés une fois que les règles de validation capturent les blocages doux

Un schéma récurrent chez les équipes utilisant notre plateforme : une fois la couche de fiabilité partagée, l'ajout d'un nouveau marché devient un simple changement de configuration plutôt qu'un sprint. Les questions intéressantes passent de « pourquoi cela a-t-il encore cassé » à « quel portail devrions-nous ajouter ensuite ».

La limite honnête : les portails immobiliers qui nécessitent des sessions connectées (certains systèmes MLS, certaines vues réservées aux agents) ont besoin d'une gestion de compte en plus de l'infrastructure de requêtes. C'est un problème distinct que nous ne résolvons pas, et vous ne devriez faire confiance à personne qui prétend le faire sans expliquer comment.

Point clé

L'immobilier est l'un des rares secteurs où les données obsolètes ne sont pas un simple désagrément. C'est un échec du produit. Un prix vieux d'une semaine sur un site de mode est un léger embarras. Une annonce vieille d'une semaine sur un marché tendu signifie que votre utilisateur vient de se renseigner sur une maison vendue mardi.

But les équipes qui l'emportent dans ce domaine ne sont pas celles qui ont le plus de sources. Elles sont celles qui ont cessé de reconstruire la même plomberie de proxy et d'anti-bots pour chaque nouveau portail. Une fois cette couche partagée, le travail intéressant commence : qualité des données, SLA de fraîcheur, déduplication multi-portails, analyse des tendances de prix. C'est cela, le produit. Tout ce qui se trouve en dessous devrait simplement fonctionner.