Wie ein Price-Intelligence-Unternehmen täglich 10.000 SKUs trackt

Price Intelligence ist das Rückgrat des wettbewerbsorientierten E-Commerce. Unternehmen, die Mitbewerberpreise in Echtzeit tracken, können ihre eigene Preisgestaltung dynamisch anpassen, Margen schützen und Marktanteile gewinnen. Aber der Aufbau eines Systems, das täglich 10.000 Produktseiten zuverlässig überwacht, ist eine echte technische Herausforderung.

Dieser Beitrag zeigt, wie ein typischer Price-Intelligence-Prozess abläuft, welche technischen Hürden dabei auftreten und wie Datenbeschaffungs-APIs wie FourA die Infrastrukturebene vereinfachen.

Die Dimension des Problems

Ein mittelgroßes Price-Intelligence-Unternehmen trackt beispielsweise:

10.000 SKUs auf 50 Mitbewerber-Websites
3 Preisprüfungen pro SKU und Tag (morgens, nachmittags, abends)
Das sind täglich 30.000 Seitenabrufe auf Websites mit unterschiedlichen Layouts, Schutzsystemen und Rendering-Anforderungen

Bei dieser Größenordnung kannst du dir keine manuelle Wartung leisten. Jeder fehlerhafte Selektor, jede blockierte IP oder jedes Website-Redesign kostet Stunden an Entwicklungszeit und führt zu Datenlücken.

Architektur

1. Produktkatalog

Das System basiert auf einem strukturierten Katalog: SKU-Identifikatoren, die Mitbewerber-URLs und CSS-Selektoren für Preiselemente zugeordnet sind.

{
  "sku": "LAPTOP-X1-16GB",
  "targets": [
    {"site": "competitor-a.com", "url": "https://competitor-a.com/laptop-x1", "selector": ".price-current", "type": "single"},
    {"site": "competitor-b.com", "url": "https://competitor-b.com/products/12345", "selector": "[data-price]", "type": "browser"},
    {"site": "competitor-c.com", "url": "https://competitor-c.com/item/laptop-x1", "selector": ".product-price", "type": "proxy"}
  ]
}

Beachte die unterschiedlichen Task-Typen pro Ziel. Jede Website hat andere Eigenschaften.

2. Collection-Pipeline

Ein Scheduler verteilt die Collection-Jobs in Batches. Jeder Job ruft die FourA-API auf:

import requests
import time

def collect_price(target):
    resp = requests.post("https://eu.api.foura.ai/api/v1/tasks", headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    }, json={
        "url": target["url"],
        "type": target["type"],
        "options": {"waitFor": target["selector"]} if target["type"] == "browser" else {}
    })
    return resp.json()

Die entscheidende Erkenntnis: FourA übernimmt Proxy-Rotation, TLS-Fingerprinting, Browser-Rendering und Retry-Logik. Die Collection-Pipeline muss nur URLs senden und Responses parsen.

3. Preisextraktion und Normalisierung

Rohes HTML durchläuft einen Parser, der den Preiswert extrahiert, die Währung normalisiert und Sonderfälle behandelt (Sonderangebote, „Ab“-Preise, Out-of-Stock-Indikatoren).

4. Änderungserkennung und Alerts

Jeder neue Preis wird mit dem vorherigen Wert verglichen. Signifikante Änderungen (typischerweise ein Schwellenwert von 2–5 %) lösen Alerts für Analysten oder automatisierte Repricing-Systeme aus.

Zentrale Herausforderungen

Websitespezifische Komplexität: Jede Mitbewerber-Website hat ein eigenes Layout, ein anderes Schutzniveau und ein eigenes Rendering-Verhalten. Ein Einheitsansatz scheitert schnell.

Datenaktualität: Veraltete Preise sind schlimmer als gar keine Preise. Das System muss seine tägliche Erfassung innerhalb des Zeitfensters abschließen, was eine effiziente Handhabung von Fehlern und Retries erfordert.

Kostenmanagement: Bei 30.000 Requests pro Tag summieren sich die Infrastrukturkosten. Die Verwendung des richtigen Task-Typs für jedes Ziel (Single, wenn möglich, Browser nur bei Bedarf) senkt die Kosten erheblich.

Warum APIs besser als Eigenbau sind

Ein Unternehmen, das dies intern aufbaut, müsste Proxy-Pools, Browser-Farms und Anti-Detection-Code für jede Ziel-Website warten. Dieser Infrastruktur-Overhead ist der eigentliche Kostenfaktor. Es ist nicht die Entwicklungszeit für den ersten Scraper, sondern die laufende Wartung, damit er weiterhin funktioniert.

Datenbeschaffungs-APIs wie FourA fangen diese Komplexität ab. Das Unternehmen konzentriert sich auf seine tatsächlichen Differenzierungsmerkmale (Produktkatalog, Preisalgorithmen, Kundenbeziehungen), anstatt Chrome aktuell zu halten.

Die Unternehmen, die bei der Price Intelligence die Nase vorn haben, sind nicht diejenigen mit den größten Scraping-Teams. Es sind diejenigen, die aufgehört haben, Infrastruktur zu bauen, und angefangen haben, bessere Preismodelle zu entwickeln. Genau dort liegt der echte Wettbewerbsvorteil.

Erfahre mehr im How-to-Guide und in der API-Referenz.