كل المقالات

مصائد الويب (Tarpits): من يقع في الفخ بالفعل

تقوم مواقع الويب بنشر مصائد (tarpits) تحتجز زواحف الذكاء الاصطناعي وتغذيها ببيانات عديمة الفائدة. لكن هذه المصائد لا تميز بين GPTBot وأداة تتبع الأسعار الخاصة بك.

المواقع تنصب الفخاخ لزواحف الذكاء الاصطناعي

انتشرت أداة تُدعى Nepenthes بشكل واسع في أوائل عام 2025. وهي تولد متاهات لا نهائية من صفحات الويب المزيفة، ترتبط كل منها بصفحات مزيفة أخرى، ومصممة لمحاصرة الزواحف في حلقة مفرغة لا يمكنها الهروب منها. أما النصوص الموجودة على تلك الصفحات؟ فهي عبارة عن كلام غير مفهوم تم إنشاؤه خوارزميًا، ومصمم لتلويث مجموعات بيانات تدريب الذكاء الاصطناعي ببيانات عديمة الفائدة.

ليست Nepenthes وحدها في هذا المجال. فقد ظهرت مشاريع مثل Locaine وقائمة متزايدة من "tarpits" مفتوحة المصدر على GitHub، وكل منها يحمل الفكرة نفسها: إذا كانت شركات الذكاء الاصطناعي لا تحترم ملف robots.txt، فإن أصحاب المواقع سيردون باستخدام السم.

هذا الدافع يبدو منطقيًا. وجدت دراسة أكاديمية على arXiv أن حظر الذكاء الاصطناعي بين المواقع الموثوقة قفز من 23% في سبتمبر 2023 إلى ما يقرب من 60% بحلول مايو 2025. وأظهر تحليل BuzzStream أن 79% من أهم المواقع الإخبارية تحظر الآن برامج زحف تدريب الذكاء الاصطناعي عبر ملف robots.txt. كما أفاد تقرير Cloudflare Radar بأن 75% من حركة مرور الويب المتعلقة بالذكاء الاصطناعي في منتصف عام 2025 تم إنشاؤها لأغراض التدريب، وليس للبحث أو الاستدلال.

لكن tarpits لا تتحقق من الهوية. فهي لا تسأل عن سبب قيامك بعملية الزحف. بل تحتجز أي شيء يبدو مؤتمتًا.

من يقع في الفخ بالفعل

الأهداف المقصودة واضحة: GPTBot، وClaudeBot، وزواحف شركات الذكاء الاصطناعي التي تجمع بيانات الويب المفتوح لتدريب نماذجها. المشكلة هي أن tarpits لا يمكنها التمييز بين زاحف OpenAI وسكريبت تتبع الأسعار الخاص بك.

تكشف tarpits أنماط الـ request المؤتمتة. إذا كان برنامج الكشط (scraper) الخاص بك يتتبع الروابط بشكل منهجي، أو يرسل طلبات إلى الصفحات بفواصل زمنية ثابتة، أو يتخطى تنفيذ JavaScript (وهي الطريقة التي تعمل بها معظم زواحف تدريب الذكاء الاصطناعي)، فإنه سيبدو كهدف مستهدف. لا يهتم الفخ بكونك فريق تجارة إلكترونية مكونًا من 10 أشخاص يتتبع أسعار المنافسين. فهو يرى حركة مرور تشبه برامج البوت ويبدأ في تقديم صفحات مزيفة.

هذا ليس مجرد أمر نظري. وجدت أبحاث من Rutgers وWharton أن المواقع التي تحظر زواحف الذكاء الاصطناعي شهدت انخفاضًا بنسبة 23.1% في إجمالي حركة المرور وانخفاضًا بنسبة 13.9% في حركة مرور المستخدمين الحقيقيين. إن أسلوب الحظر الهجومي هذا لا يوقف برامج كشط الذكاء الاصطناعي فحسب، بل يضر أيضًا بظهور الموقع نفسه.

وتذهب tarpits إلى أبعد من ذلك: فهي تهدر بنشاط موارد الحوسبة والتخزين والنطاق الترددي للزاحف، بينما تغذيه ببيانات تؤدي إلى تدهور جودة أي نموذج أو قاعدة بيانات يقوم ببنائها.

سلم التصعيد

لطالما كان ملف robots.txt بمثابة اتفاقية شرف. وكان يعمل بنجاح عندما كان الجميع يلتزمون بالقواعد. ولكن عندما بدأت شركات الذكاء الاصطناعي الكبرى في تجاهله (أو إيجاد تفسيرات مبتكرة للفرق بين "الزحف بغرض البحث" مقابل "الزحف بغرض التدريب")، قام أصحاب المواقع بتصعيد الأمر.

وتبدو هذه الخطوات كالتالي:

  1. حظر ملف robots.txt: الـ request المهذب
  2. تصفية الـ User-Agent: حظر البصمات المعروفة لزواحف الذكاء الاصطناعي
  3. الكشف السلوكي: رصد الزواحف غير المعروفة من خلال أنماط الـ request الخاصة بها
  4. Tarpits: تدابير مضادة نشطة تهدر الموارد وتسمم البيانات

كل خطوة تلتقط المزيد من التهديدات. وكل خطوة تلتقط أيضًا المزيد من حركة المرور المشروعة. وبحلول الخطوة الرابعة، تصبح تعامل كل وصول مؤتمت على أنه معادٍ. وبالتالي، فإن برنامج الكشط (scraper) الذي يجمع أسعار المنتجات المتاحة للعامة لصالح خدمة مقارنة الأسعار سيقع في الفخاخ نفسها التي يقع فيها GPTBot الذي يجمع البيانات دون إذن.

ما يجب على فرق البيانات فعله الآن

إذا كنت تدير عمليات جمع البيانات بأي حجم، فإن tarpits تغير قواعد اللعبة. وهناك عدة أمور أصبحت الآن أكثر أهمية مما كانت عليه في السابق.

احترم ملف robots.txt دائمًا. قد يبدو هذا أمرًا أساسيًا، لكنه أصبح شرطًا لا غنى عنه الآن. تستخدم المواقع ملف robots.txt كفلتر أولي. وتجاهله يعني وضع نفسك في الفئة نفسها مع بوتات تدريب الذكاء الاصطناعي التي تسببت في ظهور رد الفعل هذا المتمثل في الـ tarpits.

لا تبدُ مثل زاحف تدريب. تمتلك زواحف تدريب الذكاء الاصطناعي بصمات يمكن التنبؤ بها: فهي تتتبع كل رابط، وتطلب الصفحات بكميات كبيرة، وتتخطى JavaScript، وتحافظ على فواصل زمنية منتظمة. إذا كان برنامج الكشط (scraper) الخاص بك يفعل الشيء نفسه، فسيقوم الكشف السلوكي بتمييزه كتهديد. نوّع توقيتاتك. لا تقم بتحميل سوى ما تحتاج إليه فقط. قم بتنفيذ JavaScript عندما يتطلب الموقع ذلك. لقد كتبنا عن أسباب حظر برامج الكشط في مقالنا Why Your Web Scraper Keeps Breaking.

تحقق من صحة البيانات الواردة. تقدم tarpits بيانات عديمة الفائدة تبدو معقولة للوهلة الأولى. إذا لم تكن تتحقق من الـ responses في الـ pipeline الخاص بك، فقد ينتهي بك الأمر إلى تخزين نصوص تم إنشاؤها بواسطة سلاسل ماركوف (Markov) على أنها أوصاف حقيقية للمنتجات. اجعل التحقق من الصحة خطوة أساسية، وليس فكرة ثانوية.

استثمر في البنية التحتية للـ request الخاصة بك. لم يعد الأسلوب القديم (تبديل عناوين IP، وحل اختبارات CAPTCHA، وإعادة المحاولة عند الفشل) كافيًا. تحلل أنظمة مكافحة البوتات الحديثة بصمات TLS، وسلوك المتصفح، وأنماط الجلسات. يساعد Smart proxy routing، ولكن التحول الحقيقي هو الانتقال من الكشف على مستوى IP إلى الكشف على مستوى السلوك. إذا كنت تقوم بكشط مواقع تعتمد بكثافة على JavaScript، فإن browser-based collection أصبح بشكل متزايد النهج الموثوق الوحيد.

فجوة الوصول تتسع

نعتقد أن الويب يتجه نحو انقسام واضح. فمن ناحية: المواقع التي تحقق أرباحًا من بياناتها من خلال اتفاقيات الوصول المدفوع، وشراكات الـ API، والزحف المرخص. ومن ناحية أخرى: المواقع التي تتعامل مع كل وصول مؤتمت كتهديد وتتخذ تدابير مضادة تزداد هجومية بمرور الوقت.

بالنسبة لفرق البيانات، هذا يعني أن تكاليف جمع البيانات ستستمر في الارتفاع. ليس لأن التكنولوجيا أصبحت أصعب في البناء، بل لأن البيئة أصبحت أكثر عدائية. الفرق التي تستثمر في ممارسات كشط مسؤولة وشفافة ستحافظ على قدرتها على الوصول. أما الفرق التي تبدو مثل بوتات التدريب فستقع في الفخاخ، وتتسمم بياناتها، ويتم حظرها.

إن tarpits لن تختفي. والسؤال الذي يجب أن يطرحه فريقك ليس ما إذا كان ينبغي القلق بشأنها، بل ما إذا كانت بنيتك التحتية قادرة على رصد الفرق بين الصفحة الحقيقية والفخ قبل أن تصل تلك البيانات إلى قاعدة بياناتك.