Скрапинг динамических сайтов

Динамические сайты загружают контент с помощью JavaScript после первоначальной загрузки страницы. В этом руководстве показано, как собирать данные с таких сайтов с помощью browser endpoint от FourA.

Проблема

При отправке стандартного HTTP-request на сайт с большим количеством JavaScript вы получаете только HTML-оболочку, но не сам контент. Нужные вам данные (списки товаров, цены, результаты поиска) загружаются с помощью JavaScript после рендеринга страницы в браузере.

Это все чаще встречается в современных фреймворках, таких как React, Vue, Angular и Next.js.

Решение: Browser Requests

Browser endpoint от FourA (POST /api/browser/) открывает ваш URL в инстансе браузера Chrome, который:

  1. Загружает страницу
  2. Выполняет весь JavaScript
  3. Ожидает рендеринга контента
  4. Возвращает полностью отрендеренный HTML

Шаг 1: Определите, что вам нужно

Перед отправкой request откройте целевую страницу в браузере и используйте DevTools (F12), чтобы найти фрагмент текста или элемент, подтверждающий загрузку контента. Например:

  • Название товара, которое появляется после рендеринга JS
  • CSS-класс вроде product-grid в отрендеренном HTML
  • Текстовую строку вроде "results", которая появляется только при загрузке данных

Шаг 2: Отправьте browser request

curl -X POST https://eu.api.foura.ai/api/browser/ \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com/products",
    "timeout_ms": 15000,
    "checkText": "product-grid"
  }'

Параметр checkText указывает FourA проверить, что строка "product-grid" присутствует на отрендеренной странице. Если она не появится до истечения таймаута, request завершится с ошибкой, сообщая вам, что контент не загрузился.

Шаг 3: Распарсите HTML

Response содержит полностью отрендеренный HTML в поле body. Распарсите его с помощью предпочитаемой библиотеки:

Python (BeautifulSoup)

import requests
from bs4 import BeautifulSoup

resp = requests.post("https://eu.api.foura.ai/api/browser/", headers={
    "X-API-Key": "YOUR_API_KEY",
    "Content-Type": "application/json"
}, json={
    "url": "https://example.com/products",
    "timeout_ms": 15000,
    "checkText": "product-grid"
})

html = resp.json()["body"]
soup = BeautifulSoup(html, "html.parser")

for product in soup.select(".product-card"):
    name = product.select_one(".product-name").text.strip()
    price = product.select_one(".product-price").text.strip()
    print(f"{name}: {price}")

Node.js (cheerio)

import * as cheerio from 'cheerio';

const resp = await fetch('https://eu.api.foura.ai/api/browser/', {
  method: 'POST',
  headers: { 'X-API-Key': 'YOUR_API_KEY', 'Content-Type': 'application/json' },
  body: JSON.stringify({
    url: 'https://example.com/products',
    timeout_ms: 15000,
    checkText: 'product-grid'
  })
});

const { body: html } = await resp.json();
const $ = cheerio.load(html);

$('.product-card').each((i, el) => {
  console.log($(el).find('.product-name').text(), $(el).find('.product-price').text());
});

Устранение неполадок

Все еще получаете пустой контент?

  • Убедитесь, что страница действительно использует рендеринг через JavaScript (сравните "View Source" и DevTools)
  • Увеличьте timeout_ms: некоторые страницы загружаются медленно
  • Проверьте, требует ли страница авторизации или cookies (используйте параметр cookies)

Появляется страница с CAPTCHA?

  • Для одиночных/HTTP requests переключитесь на proxy endpoint (POST /api/proxy/) для автоматической ротации IP.
  • Чтобы добавить ротацию proxy в browser requests, используйте параметр proxy в browser endpoint вместо оборачивания в proxy endpoint. Proxy endpoint оборачивает только одиночные/HTTP requests, но не browser requests.
curl -X POST "https://eu.api.foura.ai/api/browser/" \
  -H "X-API-Key: YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com", "proxy": "http://proxy-url:port"}'

Следующие шаги

Обновлено: 31 мая 2026 г.