Когато LLM extraction спира да се изплаща

Firecrawl таксува 1 кредит за scrape на страница и 5 кредита за извличане на структурирани полета от същата страница (Firecrawl pricing, 2026). Това е 5 пъти надценка за същия HTML, изпратен през модел.

Обещанието е реално: описвате какво искате, получавате обратно JSON, без необходимост от поддръжка на селектори. За нестабилни оформления и еднократни цели, надценката си заслужава. Но за production pipeline, който извлича 500K продуктови страници на ден от едни и същи пет търговеца, това не е така.

Наблюдавали сме екипи да пускат LLM-default extraction, да получават месечната фактура и да започват да търсят изход. Решението обикновено не е да се откажат от LLMs. То е да ги поставят на правилното място в техния pipeline.

Математиката бързо става неприятна

Да вземем Firecrawl като по-евтин вариант. Scrape плюс AI extract е 6 кредита на страница без crawl, 7 кредита с crawl (ScrapeGraphAI breakdown, 2026). 100K страници на ден на техния growth tier струват приблизително $21K на месец преди повторни опити и преди да сте платили за нито едно proxy.

Ако стартирате собствен LLM pipeline, математиката се променя, но сумите не стават малки. GPT-4o струва $2.50 на милион input tokens и $10 на милион output (PricePerToken, 2026). Една продуктова страница след конвертиране в markdown изразходва 4K-8K input tokens. Да кажем 6K input, 200 output за JSON обект. При 100K страници на ден това са $360 дневно, $11K месечно за задача, която CSS селекторите вършат безплатно след еднократна настройка.

Това е евтиният модел. Преминете към Claude Sonnet 4.6 ($3 input, $15 output) и сметката се удвоява (PE Collective, 2026). Преминете към reasoning модел и добавете 3-10 пъти оскъпяване в зависимост от това колко мисли, преди да отговори.

Нищо от това не включва грешките. Процент на халюцинации от 3-5% звучи безобидно, докато не направите сметката. При 100K страници на ден това са 3,000-5,000 грешни записа, влизащи във вашия warehouse, изглеждащи точно като правилните, защото моделът ги е върнал с пълна увереност. Както се изразяват от DataHen: "Проблемът не е, че AI понякога греши. Проблемът е, че греши уверено." (DataHen, 2026).

Какво всъщност правят опитните екипи

Прочетете документацията на доставчици, които действително управляват scrapers в production, и моделът е последователен: хибриден. Използвайте LLM, за да разберете страницата веднъж, след което изпълнявайте евтин детерминистичен код за всичко следващо.

Zyte го обяснява ясно в своята документация: "Вместо да използвате LLM за всяка страница, използвайте вашия LLM, за да генерирате CSS селектори за желаните полета въз основа на суровия HTML на първата страница, и използвайте тези селектори за парсване на всички останали страници." (Zyte LLM guide, 2026). Apify препоръчва същия работен процес в своето ръководство за 2026 г.: първо опитайте с CSS селектори, а при неуспех преминете към LLM (Apify 2026 guide). Статия в DEV Community за внедряване в production описва архитектурата точно: кешираният път на селектора не струва нищо, а LLM се задейства само когато валидацията се провали (DEV.to, 2026).

Така че разделението в production изглежда по следния начин:

LLM bootstraps селектора (едно повикване на цел, части от цента)
Селекторът се изпълнява за всяка страница (безплатно)
Валидатор (обикновено regex или проверка за присъствие) улавя drift
Drift задейства re-bootstrap седмици или месеци по-късно

Цената на страница спада от ~$0.005 до доста под $0.0001. Качеството се повишава, защото детерминистичното парсване не халюцинира. И изразходвате tokens за работата, в която LLMs са наистина добри: разчитане на нова структура, а не повтаряне на структура, която вече сте картографирали.

Къде все пак LLMs си заслужават цената

Това не е статия против LLMs. Има много задачи за извличане на данни, при които моделът е правилният инструмент и математиката на кредитите излиза:

Нестабилни оформления, които се променят ежеседмично. Селекторите, които се чупят всеки вторник, струват повече в инженерно време, отколкото LLM extraction в tokens. Стартирайте модела.
Long-tail цели, които никога няма да посетите втори път. Няма смисъл от писане на селектор. Стартирайте модела.
Неструктурирано съдържание, при което самият изход е резюме. Описания на работни места към умения, статии към твърдения, отзиви към нагласи. Селекторите не могат да помогнат. Стартирайте модела.
Страници с незадължителни полета, разпръснати в различни варианти на оформлението. Един шаблон с двадесет условни рендирания е точно мястото, където LLMs побеждават веригите от regex.

Погледнете вашия pipeline. Сортирайте целите по обем. Горните 20% по брой request почти винаги имат стабилна структура (затова са в горните 20%, тъй като сте ги интегрирали умишлено). Те са кандидати за селектори. Long tail е мястото, където моделът принадлежи.

Какво означава това за вашия stack

Маркетинговото послание на доставчиците през 2026 г. се опитва да ви накара да използвате LLM extraction по подразбиране. Ценообразуването на база кредити прави това да изглежда разумно за малки проекти. То спира да бъде такова, когато мащабирате, по същия начин, по който размерът на proxy pool спря да предвещава реален успех след като основният сигнал се развали.

Три извода за екипи, които изграждат реални pipelines:

Разделете извличането (fetch) от парсването (parse). Ако вашият доставчик за scraping връща само извлечен чрез LLM JSON, няма да можете да преминете към селектори, когато пристигне сметката. Изберете инфраструктура, която ви предоставя HTML и ви позволява сами да изберете метода за извличане.
Кеширайте агресивно на ниво селектор. Генерираните селектори могат да се използват многократно за хиляди страници. Скъпото повикване е генерирането, а не използването.
Измервайте цената на запис, а не на страница. Pipeline, който струва $0.001 на страница, но изпраща 5% лоши записи, струва повече от такъв, който струва $0.005 на страница и доставя чисти данни. Съхранението, последващите заявки и евентуалното почистване на данните също имат своята цена.

Изберете скучната половина

Използването на LLM-extraction по подразбиране е подходящо за демо, но е грешно за production. Екипите, които се справят успешно, са тези, които разглеждат LLMs като инструмент за разбиране на страницата, а не като инструмент за четене на страницата. Скучният детерминистичен код все още печели играта на обемите през 2026 г., докато моделът печели играта на новостите. И двете имат своето място в stack-а.

В FourA, Single и Browser връщат суровия response (HTML, рендиран DOM, headers, body) и спират дотук. Дали ще парсвате със селектори, ще го изпратите на модел или ще направите и двете, решението е ваше. Ние не добавяме кредитен множител за извличане, което не сме извършили.