가격 인텔리전스 기업이 매일 10,000개의 SKU를 추적하는 방법

가격 인텔리전스는 경쟁력 있는 이커머스의 중추입니다. 실시간으로 경쟁사 가격을 추적하는 기업은 자체 가격을 동적으로 조정하고, 마진을 보호하며, 시장 점유율을 확보할 수 있습니다. 하지만 매일 10,000개의 제품 페이지를 안정적으로 모니터링하는 시스템을 구축하는 것은 심각한 엔지니어링 과제입니다.

이 글에서는 일반적인 가격 인텔리전스 운영 방식, 이에 수반되는 기술적 장애물, 그리고 FourA와 같은 데이터 수집 API가 인프라 계층을 어떻게 단순화하는지 살펴봅니다.

문제의 규모

중견 가격 인텔리전스 기업은 다음과 같은 규모를 추적할 수 있습니다:

50개 경쟁사 웹사이트에 걸친 10,000개의 SKU
SKU당 하루 3회의 가격 확인 (오전, 오후, 저녁)
이는 레이아웃, 보호 시스템, 렌더링 요구사항이 서로 다른 사이트에서 매일 30,000번의 페이지 페치를 수행함을 의미합니다

이러한 규모에서는 수동 유지보수를 감당할 수 없습니다. 셀렉터가 깨지거나, IP가 차단되거나, 사이트가 리디자인될 때마다 수 시간의 엔지니어링 시간이 소모되고 데이터에 공백이 발생합니다.

아키텍처

1. 제품 카탈로그

시스템은 구조화된 카탈로그에서 시작합니다. 즉, SKU 식별자가 경쟁사 URL 및 가격 요소의 CSS 셀렉터와 매핑되어 있습니다.

{
  "sku": "LAPTOP-X1-16GB",
  "targets": [
    {"site": "competitor-a.com", "url": "https://competitor-a.com/laptop-x1", "selector": ".price-current", "type": "single"},
    {"site": "competitor-b.com", "url": "https://competitor-b.com/products/12345", "selector": "[data-price]", "type": "browser"},
    {"site": "competitor-c.com", "url": "https://competitor-c.com/item/laptop-x1", "selector": ".product-price", "type": "proxy"}
  ]
}

대상별로 작업 유형이 다른 점에 주목하십시오. 각 사이트는 서로 다른 특성을 가지고 있습니다.

2. 수집 파이프라인

스케줄러가 수집 작업을 배치로 발송합니다. 각 작업은 FourA API를 호출합니다:

import requests
import time

def collect_price(target):
    resp = requests.post("https://eu.api.foura.ai/api/v1/tasks", headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    }, json={
        "url": target["url"],
        "type": target["type"],
        "options": {"waitFor": target["selector"]} if target["type"] == "browser" else {}
    })
    return resp.json()

핵심 인사이트: FourA가 proxy 회전, TLS fingerprinting, 브라우저 렌더링, 재시도 로직을 처리합니다. 수집 파이프라인은 URL을 전송하고 response를 파싱하기만 하면 됩니다.

3. 가격 추출 및 정규화

원시 HTML은 가격 값을 추출하고, 통화를 정규화하며, 예외 상황(할인 가격, "~부터" 범위, 품절 표시)을 처리하는 파서로 전달됩니다.

4. 변경 감지 및 알림

새로운 가격이 측정될 때마다 이전 값과 비교됩니다. 유의미한 변화(일반적으로 2-5% 임계값)가 감지되면 분석가나 자동 가격 책정 시스템에 알림이 전송됩니다.

주요 과제

사이트별 복잡성: 각 경쟁사 사이트는 고유한 레이아웃, 보호 수준, 렌더링 동작을 가지고 있습니다. 일률적인 접근 방식은 빠르게 실패합니다.

데이터 최신성: 오래된 가격은 가격이 없는 것보다 나쁩니다. 시스템은 제한된 시간 내에 일일 수집을 완료해야 하며, 이는 실패와 재시도를 효율적으로 처리해야 함을 의미합니다.

비용 관리: 하루 30,000번의 request가 발생하면 인프라 비용이 누적됩니다. 각 대상에 적합한 작업 유형을 사용하면(가능한 경우 single, 필요한 경우에만 browser 사용) 비용을 크게 줄일 수 있습니다.

API가 자체 구축보다 나은 이유

이를 자체적으로 구축하는 기업은 모든 대상 사이트에 대해 proxy 풀, 브라우저 팜, 안티 디텍션 코드를 유지 관리해야 합니다. 이러한 인프라 오버헤드가 실제 비용입니다. 초기 스크래퍼를 작성하는 엔지니어링 시간이 아니라, 계속 작동하도록 유지하는 지속적인 유지보수 비용이 핵심입니다.

데이터 수집 API는 FourA와 같이 복잡성을 흡수합니다. 기업은 Chrome을 최신 상태로 유지하는 대신, 실제로 차별화를 만들어내는 요소(제품 카탈로그, 가격 책정 알고리즘, 고객 관계)에 집중할 수 있습니다.

가격 인텔리전스 분야에서 앞서가는 기업은 가장 큰 스크래핑 팀을 보유한 기업이 아닙니다. 인프라 구축을 중단하고 더 나은 가격 책정 모델을 만들기 시작한 기업들입니다. 바로 그곳에 진정한 경쟁 우위가 존재합니다.

자세한 내용은 가이드 및 API 레퍼런스에서 확인하세요.