كيفية بناء صورة الزاحف - دليل كامل
نشرت: 2023-01-10يعد استخراج الصور من الويب أصعب بكثير من كشط المحتوى النصي. السبب وراء ذلك هو حقيقة أنك ستحتاج إلى التدقيق في المحتوى الموجود على صفحات الويب واستخراج الصور فقط على وجه التحديد. علاوة على ذلك ، من غير المحتمل أن يساعدك الحصول على صور بدون أي سياق كثيرًا.
لضمان وضع علامات تلقائيًا على هذه الصور ، قد تحتاج أيضًا إلى استخراج المحتوى النصي المرتبط بالصورة أو المحتوى الموجود أعلى أو أسفل الصورة. نقطة أخرى هي أنه يمكن تجميع البيانات النصية أو إعادة كتابتها أو تقسيمها لإعادة استخدامها. من ناحية أخرى ، قد تشهد الصور إعادة استخدام محدودة بسبب مشكلات حقوق النشر. هذه ليست سوى بعض التحديات التي قد تواجهها عند كشط الصور. ولكن قبل الخوض في ذلك ، دعونا نلقي نظرة على قيمة كشط الصور ومدى أهمية ذلك في مجتمع اليوم المستند إلى البيانات والذي يعيش على الويب.
Fig: بوابة البحث العكسي للصور من Google
ازدهر تجريف الصور أو الزحف إليها في السنوات الأخيرة ، حتى أن Google تقدم خيار بحث عكسي عن الصور يعرض فيه النتائج بناءً على البيانات التي زحف إليها. بغرض
تأكد من أن الصور مرتبطة بالنص الصحيح ، فقد أصدرت أيضًا بعض الإرشادات للمطورين ومنشئي صفحات الويب.
Fig: البحث عن الصور في بوابة Google Image Search Portal
استخدام الصور المقشوطة
قد ترغب الشركات في الزحف إلى الويب وكشط الصور لمجموعة متنوعة من حالات الاستخدام. يمكن تقسيمها بشكل أساسي إلى مجموعتين - باستخدام الصورة الأولية. بناء النماذج أو المخططات باستخدام الصور لإنشاء منتج أكثر نضجًا. تتضمن بعض الاستخدامات الشائعة ما يلي:
نماذج ML التدريبية
يذهب الكثير من العمل البحثي إلى التعرف على الصور والذي يتم عن طريق تدريب النماذج على آلاف الصور. أبسط مثال على ذلك هو التجربة حيث تم تدريب خوارزمية ML على آلاف الصور للقطط والكلاب وبعد ذلك تمكنت من التعرف بنجاح على الصور مع الكلاب والقطط بدقة 98.7٪.
صور التجارة الإلكترونية
تعد التجارة الإلكترونية واحدة من أكبر كنوز الصور. غالبًا ما تقوم مواقع الويب الأصغر بكشط الصور من أكبرها لتحديد نوع المنتجات التي تتم إضافتها إلى الكتالوج. يمكن أيضًا استخدام صور التجارة الإلكترونية في أبحاث السوق ، على سبيل المثال ، قد يُظهر كشط صور القمصان الأكثر مبيعًا من أمازون أن القمصان السوداء هي الأكثر طلبًا.
إنشاء محتوى نصي / فيديو
بينما اعتاد معظمنا في وقت سابق على الحصول على معلوماتنا من البيانات النصية ، فإن البيانات التي نستهلكها اليوم تأتي في العديد من التنسيقات - النصوص ، الصوت ، مقاطع الفيديو ومقاطع الفيديو القصيرة. يتضمن الكثير من هذا المحتوى صورًا - بعضها من مصادر خارجية وقد تم ذكر مراجعها. على الجانب الآخر ، يمكن أيضًا كشط هذا المحتوى للصور لمزيد من الاستخدام النهائي.
الميمات
الميمات هي صور ذات محتوى مضحك غالبًا ما تنتشر بسرعة وتنتشر عبر الإنترنت. في السنوات الأخيرة ، رأينا شركات توظف كتّاب ميم أو فرق تسويق تستخدم الميمات للتواصل مع الجمهور على الويب. غالبًا ما تساعد قصاصات الميمات وأحدث الصور منشئي الميمات على ابتكار أفكار جديدة أو أشكال مختلفة باستخدام نفس القالب.
البحث عن صور لأفراد محددين وأحداث وأكثر
غالبًا ما يتطلب المحتوى الجديد أو المعلوماتي الصور. على سبيل المثال ، من المحتمل أن تضيف صورة للأم تيريزا إذا كنت تنشر مقالة عنها. قد يكون من السهل العثور على مثل هذه الصورة. ولكن إذا كنت دار نشر تنشر آلاف المقالات شهريًا وتتطلب صورًا لا تخضع لحقوق الطبع والنشر ، لاستخدامها في مقالاتها - فإن ذلك سيتطلب بعض الكشط الجاد للصور.
التحديات مع كشط الصور من الويب
إعداد الأمور
تتمثل إحدى العقبات الرئيسية في إلغاء الصور أو أي بيانات من الويب في وجود فريق تقني قادر بما يكفي على القيام بذلك. في المرتبة الثانية ، هو إعداد البنية التحتية. نظرًا لأن معظم المؤسسات تتطلب بيانات على أساس الوقت الفعلي من مصادر متعددة ، يتم عادةً نشر إعدادات كشط البيانات على السحابة. ما يعنيه هذا هو أن فريقك يجب أن يكون لديه الدراية بإعداده على السحابة والحفاظ عليه على المدى الطويل. تتضمن الصيانة إصلاح الأخطاء والأعطال وإبقاء التكاليف تحت السيطرة أثناء التوسع.
تدابير مكافحة الكشط والعقبات القانونية
يجب عليك إحضار ملف robot.txt لأي موقع ويب تقوم بكشط البيانات منه. سيضمن ذلك اتباعك لقواعد الزحف التي حددها موقع الويب هذا. علاوة على ذلك ، ستحتاج أيضًا إلى تتبع الصور التي تقع خارج صفحة تسجيل الدخول أو تلك التي لها حقوق نشر وسياسات إعادة استخدام مذكورة على وجه التحديد. يمكن للقوانين الخاصة بالجغرافيا مثل القانون العام لحماية البيانات في أوروبا أو قانون حماية خصوصية المستهلك في كاليفورنيا في كاليفورنيا أن تجعل الأمور أكثر تعقيدًا.
تصميمات مواقع الويب المتنوعة والمتغيرة باستمرار
يسارع مالكو مواقع الويب إلى ترقية واجهة المستخدم لجعل صفحات الويب أكثر جاذبية للعملاء. ما يعنيه هذا هو أن التكنولوجيا الأحدث تدير مواقع الويب وتجعل عملية التجريف أكثر تعقيدًا. تعني التحديثات المنتظمة أيضًا أنك قد تحتاج إلى تغيير الكود كلما دفعوا تحديث واجهة المستخدم - وهو أمر قد يتم إخطارك به ، فقط عندما ترى أنه لم تتم إضافة صور مقتبسة جديدة إلى قاعدة البيانات.
صور سيئة أو غير قابلة للاستخدام
قد يتسبب كشط الصور بشكل أعمى في حدوث مشكلة في الجودة. قد يكون هذا من حيث الدقة والرؤية والصورة مطابقة نفسها. على سبيل المثال ، قد ينتج عن البحث عن باتمان الكثير من صور الممثلين الذين لعبوا الشخصية في الأفلام والصابون. ستحتاج إلى التأكد من استخدام المرشحات الصحيحة للحصول على مجموعة صور نظيفة لبحثك أو عملك.
مواقع الويب التي تحتوي على صور تكون أبطأ في التحميل في بعض الأوقات
النص خفيف والصور ثقيلة. عند فتح صفحة ويب بها صور عديدة ، قد ترى أن تحميل الصور يستغرق وقتًا. قد يكون هذا بمثابة تحدٍ إذا كنت تقوم بكشط الكثير من الصور من نفس الموقع دفعة واحدة. قد يؤدي تنزيل الصور دون التأكد من تحميلها بالكامل إلى صور ذات جودة رديئة أو حتى تنزيل صور فارغة.
حلول DIY
يمكن أن يوفر لك القليل من البحث عبر الإنترنت عددًا قليلاً من خيارات DIY. بعض من أكثرها شعبية هي:
- كتابة التعليمات البرمجية بلغة مثل Python باستخدام مكتبات مثل BeautifulSoup. هذا من شأنه أن يعمل فقط مع متطلبات الكشط الصغيرة.
- استخدام البرامج القائمة على واجهة المستخدم والتي تأتي في كل من الخيارات المجانية والمدفوعة. هذه عادةً ما تحتوي على الكثير من القيود على الإصدار المجاني. يوجد أيضًا منحنى تعليمي في حالة ما إذا كنت تريد من فريق عملك أو فريق المنتج الخاص بك استخدام هذا الحل لكشط الصور.
- توجد أيضًا حلول كشط الصور القائمة على التقاط الشاشة والتي يمكنك من خلالها استخدام الماوس لتحديد الصور التي تريدها من صفحة ويب وستقوم الخدمة بكشط الصور من صفحات الويب المماثلة. لا توفر هذه دائمًا أنظف البيانات وستحتاج إلى دفع ما يصل إلى كشط أكثر من عدد محدود من الصور.
باختصار ، لن تتمكن أي من حلول DIY الثلاثة من التعامل مع جميع التحديات التي تم ذكرها عندما يتعلق الأمر بالزحف على الويب وكشط الصور للمؤسسات.
فوائد استخدام حل DaaS
يمكن إجراء عملية جمع البيانات من الويب للحصول على بيان مشكلة لمرة واحدة أو مشروع حيوان أليف باستخدام بضعة أسطر من كود Python ، ولكن إعداد حل على مستوى المؤسسة للحصول على موجز بيانات مباشر ليس بالمهمة السهلة. سيكون الأمر أكثر صعوبة عندما تحتاج إلى آلاف الصور من مئات المواقع. هذا هو السبب في أن PromptCloud توفر حلولًا مخصصة لكشط الصور يمكن استخدامها من قبل كل من شركات Fortune 500 وكذلك الشركات الناشئة التي أنشأت للتو متجرًا.
Fig: الخطوات المتبعة في PromptCloud كشط الصور لمتطلبات عملك
لدينا عملية بسيطة من 3 مراحل يمكنك من خلالها إعلامنا بمواقع الويب وصفحات الويب التي يجب كشطها بحثًا عن الصور. قد ترغب أيضًا في كشط الصور المتعلقة بكلمات بحث معينة. المعلومات الأخرى التي سيتعين عليك تقديمها هي تكرار الزحف ، إذا كنت تريد التقاط نص أعلى أو أسفل الصورة مباشرةً ، حيث يجب تخزين الصور المقتطعة وكيف تريد الوصول إليها. يمكننا إسقاط الصور في S3 أو DropBox أو السماح لك بالاستعلام عنها عبر واجهات برمجة التطبيقات.
بمجرد أن نحصل على المتطلبات ، سنقوم بإعداد الزاحف لكشط الصور من مواقع ويب متعددة. سنهتم بإعداد السحابة والتكوين والجوانب القانونية. بمجرد بدء الإعداد وتشغيله ، سنحصل على بعض عينات البيانات للتحقق معك قبل دفع بيانات النظام المباشر إلى طريقة التسليم المحددة الخاصة بك.
بعد ذلك ، سنراقب نظام كشط الصور ونقوم بتوصيل أي أعطال عن طريق تحديث برامج الزحف للتعامل مع مواقع الويب وصفحات الويب الجديدة بالإضافة إلى التغييرات في صفحات الويب. أفضل جزء من ذلك كله هو أنك تدفع فقط مقابل كمية البيانات التي تستهلكها. لذلك إذا قمت بكشط 100 صورة من 10 مواقع ويب في شهر ، فإنك تدفع فقط مقابل ذلك. وفي الشهر التالي ، يمكنك استخراج 10000 صورة من 1000 موقع ويب - ثم الدفع وفقًا لذلك. هذا يضمن أن خدمتنا هي حقًا حل DaaS قائم على السحابة ويمكن استخدامه من قبل الجميع بغض النظر عن مقدار البيانات التي يحتاجها المرء.