Comment une entreprise de veille tarifaire suit 10 000 SKU par jour

La veille tarifaire est le pilier de l'e-commerce compétitif. Les entreprises qui suivent les prix des concurrents en temps réel peuvent ajuster leurs propres tarifs de manière dynamique, protéger leurs marges et gagner des parts de marché. Mais concevoir un système capable de surveiller de manière fiable 10 000 pages produits chaque jour représente un véritable défi d'ingénierie.

Cet article présente le fonctionnement d'une opération type de veille tarifaire, les obstacles techniques associés et la manière dont les API de collecte de données comme FourA simplifient la couche d'infrastructure.

L'ampleur du problème

Une entreprise de veille tarifaire de taille moyenne peut suivre :

10 000 SKU sur 50 sites web concurrents
3 vérifications de prix par SKU et par jour (matin, après-midi, soir)
Soit 30 000 récupérations de pages par jour, sur des sites ayant des mises en page, des systèmes de protection et des exigences de rendu différents

À cette échelle, vous ne pouvez pas vous permettre une maintenance manuelle. Chaque sélecteur cassé, chaque IP bloquée ou chaque refonte de site coûte des heures de travail d'ingénierie et crée des lacunes dans vos données.

Architecture

1. Catalogue de produits

Le système commence par un catalogue structuré : des identifiants SKU associés aux URL des concurrents et aux sélecteurs CSS pour les éléments de prix.

{
  "sku": "LAPTOP-X1-16GB",
  "targets": [
    {"site": "competitor-a.com", "url": "https://competitor-a.com/laptop-x1", "selector": ".price-current", "type": "single"},
    {"site": "competitor-b.com", "url": "https://competitor-b.com/products/12345", "selector": "[data-price]", "type": "browser"},
    {"site": "competitor-c.com", "url": "https://competitor-c.com/item/laptop-x1", "selector": ".product-price", "type": "proxy"}
  ]
}

Notez les différents types de tâches par cible. Chaque site présente des caractéristiques différentes.

2. Pipeline de collecte

Un planificateur distribue les tâches de collecte par lots. Chaque tâche appelle l'API FourA :

import requests
import time

def collect_price(target):
    resp = requests.post("https://eu.api.foura.ai/api/v1/tasks", headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    }, json={
        "url": target["url"],
        "type": target["type"],
        "options": {"waitFor": target["selector"]} if target["type"] == "browser" else {}
    })
    return resp.json()

L'élément clé : FourA gère la rotation des proxy, l'empreinte TLS, le rendu du navigateur et la logique de tentative. Le pipeline de collecte doit uniquement envoyer les URL et analyser les réponses.

3. Extraction et normalisation des prix

Le code HTML brut passe par un analyseur qui extrait la valeur du prix, normalise la devise et gère les cas particuliers (prix promotionnels, plages de prix de type « à partir de », indicateurs de rupture de stock).

4. Détection des changements et alertes

Chaque nouveau prix est comparé au relevé précédent. Les variations significatives (généralement un seuil de 2 à 5 %) déclenchent des alertes pour les analystes ou les systèmes automatisés de tarification dynamique.

Principaux défis

Complexité propre à chaque site : chaque site concurrent possède une mise en page, un niveau de protection et un comportement de rendu uniques. Une approche unique échoue rapidement.

Fraîcheur des données : des prix obsolètes sont pires que l'absence de prix. Le système doit terminer sa collecte quotidienne dans le créneau imparti, ce qui implique de gérer efficacement les échecs et les tentatives.

Gestion des coûts : à 30 000 requêtes par jour, les coûts d'infrastructure s'accumulent. Utiliser le bon type de tâche pour chaque cible (single lorsque c'est possible, browser uniquement lorsque c'est nécessaire) réduit considérablement les coûts.

Pourquoi les API l'emportent sur le développement interne

Une entreprise qui développerait ce système en interne devrait gérer des pools de proxy, des fermes de navigateurs et du code d'anti-détection pour chaque site cible. Ce surcoût d'infrastructure constitue le véritable coût. Le problème n'est pas le temps d'ingénierie nécessaire pour écrire le scraper initial, mais la maintenance continue pour le maintenir opérationnel.

Les API de collecte de données comme FourA absorbent cette complexité. L'entreprise se concentre sur ce qui la différencie réellement (catalogue de produits, algorithmes de tarification, relations clients) au lieu de maintenir Chrome à jour.

Les entreprises qui prennent de l'avance en matière de veille tarifaire ne sont pas celles qui disposent des plus grandes équipes de scraping. Ce sont celles qui ont cessé de construire des infrastructures pour se consacrer à l'élaboration de meilleurs modèles de tarification. C'est là que réside le véritable avantage concurrentiel.

Pour en savoir plus, consultez le guide pratique et la référence de l'API.