Jak firma zajmująca się price intelligence śledzi 10 000 SKU dziennie

Price intelligence to kręgosłup konkurencyjnego e-commerce. Firmy, które śledzą ceny konkurencji w czasie rzeczywistym, mogą dynamicznie dostosowywać własne ceny, chronić marże i zdobywać udział w rynku. Jednak zbudowanie systemu, który niezawodnie monitoruje 10 000 stron produktów każdego dnia, to poważne wyzwanie inżynieryjne.

Ten wpis wyjaśnia, jak działa typowy proces price intelligence, jakie wyzwania techniczne się z nim wiążą i jak API do zbierania danych, takie jak FourA, upraszczają warstwę infrastruktury.

Skala problemu

Średniej wielkości firma price intelligence może śledzić:

10 000 SKU na 50 stronach konkurencji
3 sprawdzenia cen na SKU dziennie (rano, po południu, wieczorem)
To daje 30 000 pobrań stron dziennie, w obrębie witryn o różnych układach, systemach zabezpieczeń i wymaganiach dotyczących renderowania

Przy takiej skali nie można sobie pozwolić na ręczne utrzymanie. Każdy uszkodzony selektor, zablokowane IP czy zmiana wyglądu strony kosztuje godziny pracy inżynierów i powoduje luki w danych.

Architektura

1. Katalog produktów

System zaczyna się od ustrukturyzowanego katalogu: identyfikatory SKU są powiązane z adresami URL konkurencji i selektorami CSS dla elementów ceny.

{
  "sku": "LAPTOP-X1-16GB",
  "targets": [
    {"site": "competitor-a.com", "url": "https://competitor-a.com/laptop-x1", "selector": ".price-current", "type": "single"},
    {"site": "competitor-b.com", "url": "https://competitor-b.com/products/12345", "selector": "[data-price]", "type": "browser"},
    {"site": "competitor-c.com", "url": "https://competitor-c.com/item/laptop-x1", "selector": ".product-price", "type": "proxy"}
  ]
}

Zwróć uwagę na różne typy zadań dla każdego celu. Każda strona ma inną charakterystykę.

2. Pipeline zbierania danych

Scheduler wysyła zadania zbierania danych w paczkach. Każde zadanie wywołuje API FourA:

import requests
import time

def collect_price(target):
    resp = requests.post("https://eu.api.foura.ai/api/v1/tasks", headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    }, json={
        "url": target["url"],
        "type": target["type"],
        "options": {"waitFor": target["selector"]} if target["type"] == "browser" else {}
    })
    return resp.json()

Kluczowy wniosek: FourA obsługuje rotację proxy, TLS fingerprinting, renderowanie w przeglądarce i logikę ponawiania prób. Pipeline zbierania danych musi jedynie wysyłać adresy URL i parsować odpowiedzi.

3. Ekstrakcja i normalizacja cen

Surowy HTML trafia do parsera, który wyciąga wartość ceny, normalizuje walutę i obsługuje przypadki brzegowe (ceny promocyjne, przedziały cenowe "od", oznaczenia braku towaru).

4. Wykrywanie zmian i alerty

Każda nowa cena jest porównywana z poprzednim odczytem. Znaczące zmiany (zazwyczaj próg 2-5%) wyzwalają alerty dla analityków lub automatycznych systemów repricingu.

Kluczowe wyzwania

Specyficzna dla danej witryny złożoność: Każda strona konkurencji ma unikalny układ, poziom zabezpieczeń i sposób renderowania. Podejście uniwersalne szybko zawodzi.

Świeżość danych: Nieaktualne ceny są gorsze niż brak cen. System musi zakończyć codzienne zbieranie danych w określonym oknie czasowym, co oznacza konieczność sprawnego obsługiwania błędów i ponownych prób.

Zarządzanie kosztami: Przy 30 000 requestów dziennie koszty infrastruktury rosną. Używanie odpowiedniego typu zadania dla każdego celu (single, gdy to możliwe, browser tylko wtedy, gdy jest to konieczne) znacznie obniża koszty.

Dlaczego API wygrywa z własnym rozwiązaniem

Firma, która zbudowałaby to we własnym zakresie, musiałaby utrzymywać pule proxy, farmy przeglądarek i kod omijający zabezpieczenia dla każdej docelowej witryny. Ten narzut infrastrukturalny to prawdziwy koszt. Nie chodzi o czas pracy inżynierów potrzebny na napisanie pierwszego scrapera, ale o ciągłe utrzymanie, aby wszystko działało.

API do zbierania danych, takie jak FourA, przejmują tę złożoność na siebie. Firma skupia się na tym, co naprawdę ją wyróżnia (katalog produktów, algorytmy wyceny, relacje z klientami), zamiast dbać o aktualność Chrome.

Firmy, które wysuwają się na prowadzenie w price intelligence, to nie te z największymi zespołami ds. scrapingu. To te, które przestały budować infrastrukturę, a zaczęły tworzyć lepsze modele wyceny. To tam kryje się prawdziwa przewaga konkurencyjna.

Dowiedz się więcej w poradniku krok po kroku oraz w dokumentacji API.