Скрапинг динамических сайтов
Динамические сайты загружают контент с помощью JavaScript после первоначальной загрузки страницы. В этом руководстве показано, как собирать данные с таких сайтов с помощью browser endpoint от FourA.
Проблема
При отправке стандартного HTTP-request на сайт с большим количеством JavaScript вы получаете только HTML-оболочку, но не сам контент. Нужные вам данные (списки товаров, цены, результаты поиска) загружаются с помощью JavaScript после рендеринга страницы в браузере.
Это все чаще встречается в современных фреймворках, таких как React, Vue, Angular и Next.js.
Решение: Browser Requests
Browser endpoint от FourA (POST /api/browser/) открывает ваш URL в инстансе браузера Chrome, который:
- Загружает страницу
- Выполняет весь JavaScript
- Ожидает рендеринга контента
- Возвращает полностью отрендеренный HTML
Шаг 1: Определите, что вам нужно
Перед отправкой request откройте целевую страницу в браузере и используйте DevTools (F12), чтобы найти фрагмент текста или элемент, подтверждающий загрузку контента. Например:
- Название товара, которое появляется после рендеринга JS
- CSS-класс вроде
product-gridв отрендеренном HTML - Текстовую строку вроде "results", которая появляется только при загрузке данных
Шаг 2: Отправьте browser request
curl -X POST https://eu.api.foura.ai/api/browser/ \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/products",
"timeout_ms": 15000,
"checkText": "product-grid"
}'
Параметр checkText указывает FourA проверить, что строка "product-grid" присутствует на отрендеренной странице. Если она не появится до истечения таймаута, request завершится с ошибкой, сообщая вам, что контент не загрузился.
Шаг 3: Распарсите HTML
Response содержит полностью отрендеренный HTML в поле body. Распарсите его с помощью предпочитаемой библиотеки:
Python (BeautifulSoup)
import requests
from bs4 import BeautifulSoup
resp = requests.post("https://eu.api.foura.ai/api/browser/", headers={
"X-API-Key": "YOUR_API_KEY",
"Content-Type": "application/json"
}, json={
"url": "https://example.com/products",
"timeout_ms": 15000,
"checkText": "product-grid"
})
html = resp.json()["body"]
soup = BeautifulSoup(html, "html.parser")
for product in soup.select(".product-card"):
name = product.select_one(".product-name").text.strip()
price = product.select_one(".product-price").text.strip()
print(f"{name}: {price}")
Node.js (cheerio)
import * as cheerio from 'cheerio';
const resp = await fetch('https://eu.api.foura.ai/api/browser/', {
method: 'POST',
headers: { 'X-API-Key': 'YOUR_API_KEY', 'Content-Type': 'application/json' },
body: JSON.stringify({
url: 'https://example.com/products',
timeout_ms: 15000,
checkText: 'product-grid'
})
});
const { body: html } = await resp.json();
const $ = cheerio.load(html);
$('.product-card').each((i, el) => {
console.log($(el).find('.product-name').text(), $(el).find('.product-price').text());
});
Устранение неполадок
Все еще получаете пустой контент?
- Убедитесь, что страница действительно использует рендеринг через JavaScript (сравните "View Source" и DevTools)
- Увеличьте
timeout_ms: некоторые страницы загружаются медленно - Проверьте, требует ли страница авторизации или cookies (используйте параметр
cookies)
Появляется страница с CAPTCHA?
- Для одиночных/HTTP requests переключитесь на proxy endpoint (
POST /api/proxy/) для автоматической ротации IP. - Чтобы добавить ротацию proxy в browser requests, используйте параметр
proxyв browser endpoint вместо оборачивания в proxy endpoint. Proxy endpoint оборачивает только одиночные/HTTP requests, но не browser requests.
curl -X POST "https://eu.api.foura.ai/api/browser/" \
-H "X-API-Key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com", "proxy": "http://proxy-url:port"}'
Следующие шаги
- Выбор подходящего endpoint: Когда использовать browser, а когда single
- Мониторинг цен конкурентов: Полное руководство по отслеживанию цен
- Защита от ботов: Работа с защищенными сайтами