عندما يتوقف استخراج LLM عن تغطية تكاليفه

تفرض Firecrawl رصيدًا واحدًا لكشط صفحة و5 أرصدة لاستخراج حقول منظمة من الصفحة نفسها (أسعار Firecrawl، 2026). يمثل ذلك زيادة في السعر بمقدار 5 أضعاف للحصول على نفس الـ HTML، بعد إرساله عبر نموذج.

الفكرة واعدة حقًا: صف ما تريده، واحصل على JSON في المقابل، دون الحاجة لصيانة selectors. بالنسبة للتخطيطات غير المستقرة والأهداف التي تُستخرج لمرة واحدة، فإن الأمر يستحق هذه التكلفة الإضافية. ولكن بالنسبة لـ pipeline الإنتاج الذي يسحب 500 ألف صفحة منتج يوميًا من نفس تجار التجزئة الخمسة، فإن الأمر ليس كذلك.

لقد رأينا فرقًا تطلق ميزة الاستخراج الافتراضي باستخدام LLM، لتصطدم بفاتورة نهاية الشهر، وتبدأ في البحث عن مخرج. لا يكمن الحل عادةً في التخلي عن الـ LLMs، بل في وضعها في المكان المناسب داخل الـ pipeline.

الحسابات تصبح سيئة بسرعة

لنأخذ Firecrawl كخيار منخفض التكلفة. تبلغ تكلفة الـ Scrape بالإضافة إلى استخراج الذكاء الاصطناعي 6 أرصدة لكل صفحة بدون crawl، و7 أرصدة مع crawl (تحليل ScrapeGraphAI، 2026). كشط 100 ألف صفحة يوميًا على باقة النمو (growth tier) الخاصة بهم يكلف حوالي 21 ألف دولار شهريًا قبل احتساب محاولات الإعادة (retries)، وقبل أن تدفع مقابل proxy واحد.

قم بتشغيل pipeline الـ LLM الخاص بك وستتغير الحسابات ولكنها لن تصبح ضئيلة. تبلغ تكلفة GPT-4o حوالي 2.50 دولار لكل مليون input tokens و10 دولارات لكل مليون output (PricePerToken، 2026). تستهلك صفحة المنتج بعد تحويلها إلى markdown ما بين 4 آلاف إلى 8 آلاف input tokens. لنفترض أنها 6 آلاف input، و200 output للحصول على كتلة JSON. عند كشط 100 ألف صفحة يوميًا، فإن ذلك يعادل 360 دولارًا يوميًا، أي 11 ألف دولار شهريًا لمهمة تؤديها CSS selectors مجانًا بعد إعدادها لمرة واحدة.

هذا بالنسبة للنموذج الرخيص. انتقل إلى Claude Sonnet 4.6 (3 دولارات للـ input، و15 دولارًا للـ output) وستتضاعف الفاتورة (PE Collective، 2026). انتقل إلى نموذج تفكير (reasoning model) وأضف زيادة تتراوح بين 3 إلى 10 أضعاف اعتمادًا على مقدار الوقت الذي يقضيه في التفكير قبل الإجابة.

ولا يشمل أي من ذلك حالات الفشل. قد يبدو معدل الهلوسة (hallucination rate) الذي يتراوح بين 3% إلى 5% غير ضار حتى تقوم بالحسابات. ففي حالة كشط 100 ألف صفحة يوميًا، يعني ذلك تدفق ما بين 3,000 إلى 5,000 سجل خاطئ إلى مستودع البيانات الخاص بك، وتبدو تمامًا مثل السجلات الصحيحة لأن النموذج قدمها بثقة. وكما ذكرت DataHen: "المشكلة ليست في أن الذكاء الاصطناعي يخطئ أحيانًا، بل في أنه يخطئ بثقة تامة." (DataHen، 2026).

ما تفعله الفرق الخبيرة فعليًا

اقرأ مستندات المطورين من الشركات التي تقوم بالفعل بتشغيل scrapers في بيئة الإنتاج، وستجد نمطًا ثابتًا: الحل الهجين (hybrid). استخدم الـ LLM لفهم هيكل الصفحة مرة واحدة، ثم قم بتشغيل كود حتمي (deterministic) رخيص لكل ما يلي ذلك.

توضح Zyte ذلك في مستنداتها الخاصة: "بدلاً من استخدام LLM لكل صفحة، استخدم الـ LLM الخاص بك لإنشاء CSS selectors للحقول المطلوبة بناءً على الـ HTML الخام للصفحة الأولى، واستخدم تلك الـ selectors لتحليل (parse) جميع الصفحات الأخرى." (دليل Zyte لـ LLM، 2026). وتوصي Apify بنفس آلية العمل في دليلها لعام 2026: جرب CSS selectors أولاً، ثم تراجع إلى LLM عندما تفشل (دليل Apify لعام 2026). وقد لخص مقال على DEV Community لعملية إطلاق في بيئة الإنتاج هذه البنية البرمجية بدقة: مسار الـ selector المخزن مؤقتًا (cached) لا يكلف شيئًا، ولا يتم تشغيل الـ LLM إلا عندما يفشل التحقق من الصحة (validation) (DEV.to، 2026).

لذلك، يبدو تقسيم العمل في بيئة الإنتاج كالتالي:

يقوم الـ LLM بتهيئة الـ selector (استدعاء واحد لكل هدف، بأجزاء من السنت)
يتم تشغيل الـ selector على كل صفحة (مجانًا)
يقوم مدقق (validator، عادةً ما يكون regex أو فحص وجود العناصر) برصد أي انحراف (drift)
يؤدي الانحراف إلى إعادة التهيئة (re-bootstrap) بعد أسابيع أو أشهر

تنخفض التكلفة لكل صفحة من حوالي 0.005 دولار إلى أقل بكثير من 0.0001 دولار. وترتفع الجودة لأن التحليل الحتمي (deterministic parsing) لا يهلوس. وبذلك تنفق الـ tokens على المهام التي تبرع فيها الـ LLMs حقًا: قراءة الهياكل البرمجية الجديدة، وليس تكرار هيكل قمت برسم خريطته بالفعل.

الحالات التي يستحق فيها الـ LLM تكلفته على أي حال

هذا المقال ليس هجومًا على الـ LLM. فهناك الكثير من مهام الاستخراج التي يمثل فيها النموذج الأداة المثالية وتكون حسابات الأرصدة فيها مجدية:

التخطيطات غير المستقرة التي تتغير أسبوعيًا. الـ selectors التي تتعطل كل يوم ثلاثاء تكلف وقتًا هندسيًا أكبر مما يكلفه استخراج LLM من tokens. قم بتشغيل النموذج.
أهداف الذيل الطويل (long-tail targets) التي لن تزورها مرتين أبدًا. لا توجد جدوى من كتابة selector. قم بتشغيل النموذج.
المحتوى غير المنظم حيث يكون المخرج نفسه عبارة عن ملخص. تحويل التوصيف الوظيفي إلى مهارات، أو المقالات إلى ادعاءات، أو المراجعات إلى تحليل الآراء (sentiment). لا يمكن للـ selectors المساعدة هنا. قم بتشغيل النموذج.
الصفحات التي تحتوي على حقول اختيارية مبعثرة عبر متغيرات التخطيط. قالب واحد يحتوي على عشرين عملية رندر شرطية (conditional renders) هو المكان المناسب تمامًا لتتفوق فيه الـ LLMs على سلاسل regex.

انظر إلى الـ pipeline الخاص بك. رتب الأهداف حسب الحجم. إن أعلى 20% من حيث عدد الـ request تتمتع دائمًا تقريبًا بهيكل مستقر (ولهذا السبب هي في الصدارة، لأنك قمت بدمجها عمدًا). هذه هي المرشحة لاستخدام الـ selector. أما الذيل الطويل (long tail) فهو المكان الذي ينتمي إليه النموذج.

ماذا يعني هذا لبنيتك التقنية (stack)

تسويق الشركات المزودة للخدمة في عام 2026 يريدك أن تعتمد على استخراج LLM كخيار افتراضي. تسعير الأرصدة يجعل ذلك يبدو معقولاً في المشاريع الصغيرة، ولكنه يتوقف عن كون كذلك عندما تتوسع، تمامًا مثلما توقف حجم مجموعة الـ proxy عن التنبؤ بالنجاح الحقيقي بمجرد تعطل الإشارة الأساسية.

ثلاث نقاط أساسية للفرق التي تبني pipelines حقيقية:

افصل عملية جلب البيانات (fetch) عن تحليلها (parse). إذا كان مزود خدمة الكشط الخاص بك يعيد فقط JSON المستخرج بواسطة LLM، فلن تتمكن من التراجع إلى الـ selectors عندما تصلك الفاتورة. اختر بنية تحتية تمنحك HTML وتتيح لك اختيار مسار الاستخراج.
قم بالتخزين المؤقت (cache) بقوة على مستوى الـ selector. الـ selectors التي يتم إنشاؤها قابلة لإعادة الاستخدام عبر آلاف الصفحات. الاستدعاء المكلف هو عملية الإنشاء، وليس الاستخدام.
قس التكلفة لكل سجل، وليس لكل صفحة. الـ pipeline الذي يكلف 0.001 دولار لكل صفحة ولكنه يرسل 5% من السجلات التالفة يكلف أكثر من ذلك الذي يكلف 0.005 دولار لكل صفحة ويرسل بيانات نظيفة. فعمليات التخزين، والاستعلامات اللاحقة (downstream queries)، وعمليات التنظيف النهائية كلها تحمل تكلفة حقيقية.

اختر النصف الممل

الاعتماد الافتراضي على استخراج LLM هو الشكل المناسب للعروض التوضيحية (demos) والشكل الخاطئ لبيئة الإنتاج (production). الفرق التي تنجح في ذلك هي التي تعامل الـ LLMs كأداة لـ فهم الصفحة، وليس كأداة لـ قراءة الصفحة. لا يزال الكود الحتمي (deterministic) الممل يفوز في معركة الحجم الكبير في عام 2026، بينما يفوز النموذج في معركة الحالات الجديدة. كلاهما ينتمي إلى الـ stack الخاص بك.

في FourA، تعيد ميزتا Single و Browser الاستجابة الخام (HTML، و DOM الذي تم عمل رندر له، و headers، و body) وتتوقفان عند هذا الحد. وسواء قمت بالتحليل باستخدام selectors، أو أرسلتها إلى نموذج، أو قمت بالأمرين معًا، فهذا قرارك بالكامل. نحن لا نضيف مضاعفًا للأرصدة مقابل استخراج لم نقم به.