فخ الصيانة
يمر كل فريق هندسي يقوم ببناء web scrapers مخصصة بنفس الدورة:
- الأسبوع 1: بناء الـ scraper. يعمل بشكل ممتاز.
- الأسبوع 4: يقوم الموقع المستهدف بتحديث تصميمه. إصلاح الـ selectors.
- الأسبوع 8: نشر نظام anti-bot جديد. إضافة تدوير الـ proxy.
- الأسبوع 12: ظهور اختبارات CAPTCHA. دمج خدمة حلها.
- الأسبوع 16: انخفاض معدل النجاح إلى 60%. إضافة retry logic، وفترات التأخير، و fingerprint spoofing.
- الأسبوع 20: أصبح الـ scraper الآن أكثر تعقيداً بـ 10 أضعاف من التطبيق الذي يخدمه.
هل يبدو هذا مألوفاً؟
التكاليف الحقيقية
عندما أجرينا استطلاعاً شمل 50 شركة تدير بنية تحتية مخصصة للكشط، وجدنا ما يلي:
- متوسط وقت الصيانة: 15-25 ساعة أسبوعياً لفريق مكون من 2-3 مهندسين
- متوسط الوقت لإصلاح تغيير معطل: 4-8 ساعات
- تراجع معدل النجاح على مدار 6 أشهر: 20-40% دون استثمار مستمر
- تكلفة الفرصة البديلة: كان بإمكان هؤلاء المهندسين بناء ميزات المنتج بدلاً من ذلك
الـ scraper ليس هو المنتج. الـ بيانات هي المنتج. ولكن بطريقة ما، ينتهي الأمر بالـ scraper باستهلاك معظم ميزانية الهندسة.
ثلاثة توجهات لبيانات الويب
1. ابنِها بنفسك
تحكم كامل، ومسؤولية كاملة. يعمل بشكل رائع على نطاق صغير (أقل من 100 صفحة يومياً) مع أهداف مستقرة. يصبح مكلفاً بسرعة مع التوسع.
2. استخدام منصة مدارة
تتولى خدمات مثل FourA إدارة البنية التحتية: الـ proxies، والمتصفحات، وتخطي الـ anti-bot، والـ retry logic. ما عليك سوى تحديد البيانات التي تحتاجها. هذا هو الخيار الأفضل للفرق التي تحتاج إلى بيانات موثوقة دون أعباء تشغيلية.
3. شراء مجموعات بيانات جاهزة
يبيع بعض المزودين مجموعات بيانات جاهزة لحالات الاستخدام الشائعة (الأسعار، التقييمات، قوائم الوظائف). سريعة البدء، ولكنها غير مرنة وغالباً ما تكون قديمة.
اتخاذ القرار
اطرح على نفسك ثلاثة أسئلة:
- ما هو عدد المواقع المستهدفة التي تحتاجها؟ إذا كان العدد أقل من 10 مواقع مستقرة، فقد ينجح خيار البناء الذاتي. أكثر من 50؟ استخدم منصة.
- ما مدى أهمية حداثة البيانات؟ إذا كنت بحاجة إلى البيانات في غضون دقائق، فأنت بحاجة إلى بنية تحتية موثوقة. مجموعات البيانات القديمة لن تفي بالغرض.
- ما هي قيمة وقت فريقك الهندسي؟ اضرب ساعات الصيانة تلك في تكلفة المهندسين لديك. هذا هو السعر الحقيقي للبناء الذاتي.
نقطة التعادل لمعظم الفرق هي حوالي 20-30 موقعاً مستهدفاً. بعد ذلك، يصعب الجدال في الجدوى الاقتصادية للمنصة المدارة. لذا، إذا كان فريقك قد تجاوز هذا الحد منذ أشهر وما زلت تقوم بإصلاح الـ scrapers كل صباح يوم اثنين، فقد حان الوقت لإعادة الحسابات.