كل المقالات

الدفع مقابل الزحف يقسم الويب إلى نصفين

سوق الدفع مقابل الزحف من Cloudflare ورمز الحالة HTTP 402 يقسمان الويب إلى بيانات مرخصة ومفتوحة. إليك ما يتغير للفرق التي تجمع بيانات الويب في عام 2026.

في 19 فبراير 2026، أعلنت Stack Overflow و Cloudflare للعلن عن أمر لم يتوقعه معظم العاملين في قطاع بيانات الويب. لقد أطلقتا معاً ميزة الدفع مقابل الزحف: وهو نظام تتلقى فيه زواحف AI استجابة 402 Payment Required في الوقت الفعلي، ويمكنها إما دفع السعر الذي يحدده الناشر أو المغادرة. يتم التحقق من هوية البوت عند الـ edge، ويحدد الموقع السعر، ويتم قياس المعاملة وحسابها بدقة.

تعمل Cloudflare كواجهة لحوالي موقع واحد من بين كل خمسة مواقع على الإنترنت. لذلك، عندما قاموا بتفعيل الحظر الافتراضي لبوتات AI المعروفة وأنشأوا سوقاً يتيح للناشرين فرض رسوم على كل request، تغير نموذج الوصول لقطاع ضخم من الويب المفتوح في غضون عطلة نهاية أسبوع واحدة.

إذا كنت تقوم ببناء البنية التحتية لبيانات الويب في الوقت الحالي، فإن هذا الإعلان من Cloudflare ليس مجرد خبر عابر لتجاهله. إنه يغير الحسابات تماماً حول معنى كلمة "مفتوح".

الآلية الكامنة وراء هذا التحول

الخطوة التقنية بسيطة. أعادت Cloudflare إحياء HTTP 402، وهو رمز الحالة "Payment Required" الذي ظل خاملاً لفترة طويلة، وربطته بسجل لزواحف AI التي تم التحقق منها. يحدد الناشر سعراً لكل request. وإما أن يمتلك الزاحف رصيداً كافياً ويدفع، أو يتم حظره.

أما الخطوة غير التقنية فهي الأكبر. قبل ذلك، كانت الطرق الوحيدة لفرض منع "لا تكشط محتواي لتدريب الذكاء الاصطناعي" هي ملف robots.txt (وهو استشاري وغير ملزم) والحظر العنيف للبوتات (وهو نظام ثنائي، يسبب فقدان البيانات، ومليء بالإنذارات الخاطئة). أضافت Cloudflare خياراً ثالثاً: بطاقة السعر.

تختلف اقتصاديات هذا الخيار الثالث عن الخيارين الأولين. ملف robots.txt لا يكلف شيئاً ويتم تجاهله. وحظر البوتات يكلفك خسارة traffic من مستخدمين حقيقيين تم تصنيفهم بالخطأ كبوتات. أما بطاقة السعر، بطبيعتها، فهي تفصل بين الزواحف المستعدة للدفع وتلك التي ترفض ذلك.

من الذي يفرض رسوماً بالفعل

كانت Stack Overflow هي الشريك في الإطلاق لأن بيانات التدريب الخاصة بها ذات قيمة حقيقية، وكانت تتفاوض بالفعل على صفقات ثنائية مع OpenAI وغيرها. وقد عمم سوق Cloudflare تلك الصفقات الثنائية في سجل يمكن لبقية الناشرين في العالم الانضمام إليه.

نمت قائمة الجهات التي حذت حذوها بسرعة. حيث أطلقت AWS طبقة تحقيق الدخل من البوتات الخاصة بها. وبنت Akamai طبقة موازية. العرض المقدم للناشرين واضح ومباشر: بدلاً من رفع دعوى قضائية مكلفة ضد مختبر ذكاء اصطناعي، احصل على مصدر دخل يدفع لك مقابل كل request.

في الوقت الحالي، يقتصر هذا الأمر في الغالب على فئة المحتوى عالي القيمة: التوثيقات (documentation)، والأخبار، والأسئلة والأجوبة التقنية، والبيانات المرجعية المهيكلة. أما الذيل الطويل للويب (مواقع التجارة الإلكترونية الصغيرة، والأدلة الإقليمية، والمنتديات المتخصصة) فلا يقع خلف مثل هذه البوابة، وربما لن يقع خلفها أبداً. تشغيل نظام إدارة البوتات الخاص بـ Cloudflare يكلف مالاً، وميزة الدفع مقابل الزحف اختيارية. وهي مجدية فقط للمواقع التي تستحق فيها مشاهدة الصفحة الواحدة فرض رسوم عليها.

ماذا يعني هذا لـ pipelines بيانات الويب

إذا كنت تبني pipeline يسحب البيانات من Stack Overflow، أو مواقع الأخبار الكبرى، أو أي من الناشرين الذين ينضمون بنشاط إلى هذه الخدمة، فإن خياراتك تتقلص إلى ثلاثة. الدفع عبر السوق بمجرد تحديد الـ traffic الخاص بك كزاحف AI. أو الانتقال إلى مجموعة بيانات مرخصة حيثما وجدت. أو البحث عن البيانات في مكان آخر لا يزال مفتوحاً.

سينتهي الأمر بمعظم الفرق إلى القيام بالخيارات الثلاثة في أوقات مختلفة. هذا هو الواقع العملي. ينقسم الويب إلى مرخص ومفتوح، والحدود الفاصلة ليست مرسومة بدقة على طول الـ domains. يمكن للناشر نفسه أن يضع قسماً واحداً خلف 402 ويترك قسماً آخر مفتوحاً. ويمكن للموقع نفسه أن يفرض رسوماً على زاحف معين ويتجاهل بوت أبحاث بالكامل.

نعتقد أن رد الفعل العملي لفرق الهندسة يبدو كالتالي. أولاً، قم بمراجعة مصادرك. إذا كان جزء كبير من الـ pipeline الخاص بك يسحب البيانات من Stack Overflow، أو Reddit، أو مواقع الأخبار الكبرى، أو أي من عشرات الناشرين الذين يسعون بوضوح لهذه الصفقات، فافترض أن نموذج الوصول سيتغير في غضون اثني عشر شهراً. ثانياً، افصل بين المصادر المرخصة والمصادر المفتوحة داخل الـ architecture الخاصة بك في مرحلة مبكرة. إن الـ pipeline الذي يتعامل مع كل مصدر بشكل متطابق سيكون هشاً عندما يبدأ نصف هذه المصادر في طلب المال بينما لا يطلب النصف الآخر ذلك. ثالثاً، توقف عن معاملة ملف robots.txt كإشارة وحيدة. ستعني استجابة 402 شيئاً ما من الناحية التشغيلية حتى لو لم يكن الزاحف الخاص بك عميل AI. فالإنذارات الخاطئة أمر لا مفر منه في نظام جديد كهذا.

يأتي هذا جنباً إلى جنب مع ضغوط الامتثال لبيانات التدريب الناتجة عن قانون الذكاء الاصطناعي في الاتحاد الأوروبي (EU AI Act)، والذي دفع الفرق بالفعل نحو المصادر التي يتم تتبع مصدرها. نموذج الدفع مقابل الزحف هو نفس الضغط ولكن مع إضافة طبقة فوترة.

الرأي الصريح

هناك بعض الأمور التي ستعرقل عمل البعض. يعتمد التحقق من الهوية في Cloudflare على تسجيل البوتات لنفسها. البوتات التي لا تسجل، أو التي تبدو مثل residential traffic، لا تفعل رمز 402 على الإطلاق. بل تصطدم بنظام الـ anti-bot stack المعتاد بدلاً من ذلك. وهذا هو المسار الذي ستسلكه معظم زواحف AI الهجومية بالفعل. لذا، فإن الدفع مقابل الزحف يعمل مع البوتات التي ترغب في الامتثال. أما تلك التي لا ترغب في ذلك، فلم تكن لتحترم ملف robots.txt بأي حال من الأحوال.

قد لا يكون التحول الأكبر هو السوق نفسه. بل في حقيقة أن السؤال "هل هذا المحتوى متاح لتدريب الذكاء الاصطناعي؟" أصبح له إجابة تعاقدية بدلاً من مجرد تخمين عبر ملف robots.txt. أصبح بإمكان الناشرين أخيراً فرض شروطهم. وأصبح بإمكان الزواحف المعرفة بيقين. وتتقلص المنطقة الرمادية أينما يمتد هذا السوق.

أما ما يظل رمادياً فهو كل شيء خارج هذا النطاق. فالموقع الصغير الذي لا يستخدم Cloudflare، والمجمع الإقليمي الذي ليس لديه استراتيجية للذكاء الاصطناعي، والذيل الطويل للويب الذي لا يتفاوض أحد بشأنه: كل هؤلاء لا يحصلون على رمز 402، ولا يحصلون على صفقة ترخيص أيضاً. إنهم يحتفظون بأي سياسة وصول كانت لديهم من قبل، ولكن مع احتجاجات أعلى صوتاً الآن بعد أن أصبح هناك سابقة للتعويض المالي.

إلى أين يتجه هذا المسار

توقعان، وكلاهما ليس آمناً.

أولاً: ستشهد الأشهر الاثني عشر القادمة مستوى ثانياً من الـ paywall، وهذه المرة للبوتات التي لا تعمل بالذكاء الاصطناعي. إن آلية السوق ليست سوى رمز حالة HTTP وطبقة فوترة. وليس من الصعب تقنياً توسيعها لتشمل تسعير زواحف البحث، أو تسعير بوتات الأرشفة، أو تسعير مراقبة المنافسين. ويعتمد التزام الناشرين بفرض رسوم على زواحف AI فقط على سلوك الموجة القادمة. وفي معظم السنوات، ينهار هذا الالتزام.

ثانياً: ستلتف مختبرات AI حول هذا النظام. ليس عن طريق تجاهل رمز 402 (لأن ذلك يمكن تتبعه ومقاضاته)، ولكن عن طريق شراء مجموعات البيانات المرخصة بكميات كبيرة ثم تمرير كل شيء آخر عبر traffic يبدو كأنه لمستخدمين حقيقيين. وتقوم Cloudflare بالفعل بإطلاق المزيد من تقنيات الـ behavioral detection على وجه التحديد لأنها تدرك ذلك. لقد راقبنا تحول سباق التسلح هذا إلى الـ session-level signals منذ عامين وحتى الآن. والأمر لا ينتهي بوجود سوق.

السؤال المثير للاهتمام للمطورين ليس ما إذا كان ينبغي الدفع أم لا. بل هو أين سيظل الويب المفتوح مفتوحاً، وإلى متى.