كيفية منع الذكاء الاصطناعي من الزحف إلى المحتوى الخاص بك

نشرت: 2023-10-24

تم إنشاء أدوات الذكاء الاصطناعي التوليدية، مثل Google Bard وBing Chat، من العديد من مصادر المحتوى بما في ذلك الويب. مما أثار ذعر الكثيرين، أن محركات البحث كانت تدرب نماذج الذكاء الاصطناعي الخاصة بها بهدوء على كل المحتوى الذي تجده أثناء الزحف إلى بحث الويب التقليدي.

أعلن Bing وGoogle الآن عن طرق لمنع استخدام المحتوى لتدريب الذكاء الاصطناعي مع الحفاظ على فهرسته لبحث الويب.

لذا، هل يجب عليك حظر الذكاء الاصطناعي، وكيف يمكنك القيام بذلك؟

  • هل يجب عليك حظر الذكاء الاصطناعي؟
  • كيف يمكنك حظر روبوتات الذكاء الاصطناعي؟
  • كيفية حظر الذكاء الاصطناعي لـ Bing
  • كيفية حظر الذكاء الاصطناعي لجوجل
  • كيفية حظر ChatGPT
  • اختبارات

هل يجب عليك حظر الذكاء الاصطناعي؟

قد ترى الشركات التي تصنع منتجاتها الخاصة أنه من المفيد تضمين محتواها في نماذج الذكاء الاصطناعي. قد تساعد المعلومات، مثل المواصفات الفنية أو دعم المنتج، في المبيعات وتقليل تكاليف دعم العملاء.

ولكن بالنسبة للعديد من الشركات الأخرى عبر الإنترنت، فإن المحتوى هو منتجها. هناك مخاوف صحيحة من أن الطاقة المستثمرة في إنشاء المحتوى سيتم استخدامها لتحسين منتجات الذكاء الاصطناعي المملوكة لشركات التكنولوجيا الكبرى دون تقديم أي قيمة في شكل حركة مرور.

يحاول Google وBing إيجاد طرق لاعتماد المصادر وتقديم بعض زيارات الإحالة، ولكن من المحتمل أن تكون أقل من بحث الويب التقليدي، ومن المرجح أن تكون معاملات أكثر من استعلامات البحث المعلوماتية.

من المهم ملاحظة أن حظر المحتوى من أنظمة الذكاء الاصطناعي هذه لن يؤثر على سلوك الزحف. تقول Google "يتم استخدام الرمز المميز لوكيل المستخدم robots.txt في القدرة على التحكم." سيتم الزحف إلى موقعك كالمعتاد بواسطة برامج الروبوت لإنشاء فهارس البحث الخاصة بها.

وإذا كانت محركات البحث محظورة بالفعل من الزحف إلى صفحات معينة، فلن تحتاج إلى حظرها خصيصًا لأنظمة الذكاء الاصطناعي.

كيف يمكنك حظر روبوتات الذكاء الاصطناعي؟

من الممكن حاليًا حظر Google وBing وChatGPT باستخدام أساليب مألوفة لمعظم عمليات تحسين محركات البحث، وملف robots.txt وتوجيهات الروبوتات على مستوى الصفحة.

اختار Google وChatGPT طريقة robots.txt التي تسمح لك بتحديد أنماط عنوان URL، واختار Bing استخدام توجيهات الروبوتات المطبقة على الصفحات الفردية.

يتميز ملف robots.txt بأنه سهل التهيئة لموقع ويب كامل في مكان واحد. من الواضح جدًا تحديد عناوين URL التي تم حظرها مقارنةً بتوجيهات الروبوتات على مستوى الصفحة، والتي يجب اختبارها عن طريق جلب كل صفحة على حدة.

كيفية حظر الذكاء الاصطناعي لـ Bing

يبحث Bing عن توجيهات nocache أو noarchive robots، والتي يمكن إضافتها إلى الصفحة كعلامة وصفية أو في رأس استجابة X-Robots-Tag.

سيسمح Nocache بتضمين الصفحات في إجابات Bing Chat باستخدام عناوين URL والعناوين والمقتطفات فقط في تدريب نماذج الذكاء الاصطناعي من Microsoft.

لا يسمح Noarchive بتضمين الصفحات في Bing Chat، ولن يتم استخدام أي محتوى لتدريب نماذج الذكاء الاصطناعي الخاصة بشركة Microsoft.

إذا كانت الصفحة تحتوي على Nocache وNoarchive، فستكون الأولوية لـ Nocache الأقل تقييدًا.

سيطبق رمز " الروبوتات " التوجيه على جميع برامج الزحف. يتضمن ذلك Google الذي سيمنع ظهور الصفحة برابط مخبأ في نتائج البحث.

<اسم التعريف =”الروبوتات” المحتوى =”noarchive”>

يمكنك استخدام الرموز المميزة " bingbot " أو " msnbot " الأكثر تحديدًا لتجنب التأثير على محركات البحث الأخرى.

<اسم التعريف =”bingbot” content=”nocache”>

كيفية حظر الذكاء الاصطناعي لجوجل

اختارت Google طريقة robots.txt التي تسمح لك بتحديد أنماط عنوان URL لمطابقة الصفحات التي لا تريد استخدامها في Bard وما يعادلها من Vertex API. ولا ينطبق حاليًا على تجربة البحث المولدة (SGE).

وسوف تتطابق مع رمز وكيل المستخدم الخاص بـ Google-extension. حالة الرمز المميز لا يهم.

وكيل المستخدم: Google-Extensive

عدم السماح: /

إذا لم يكن هناك كتلة قاعدة مخصصة لرمز Google الممتد، فسوف يتطابق مع رمز حرف البدل (*).

وكيل المستخدم: *

عدم السماح: /

كن حذرًا إذا كان لديك كتلة قاعدة محددة لبرنامج Googlebot، وكتلة بدل منفصلة. سيطابق Google-extend كتلة حرف البدل، وليس كتلة Googlebot.

وكيل المستخدم: Googlebot

يسمح: /

وكيل المستخدم: *

عدم السماح: /

يمكنك إدراج عدة وكلاء مستخدمين قبل كتل القواعد لتكون أكثر دقة.

وكيل المستخدم: Google-Extensive

وكيل المستخدم: Googlebot

يسمح: /

وكيل المستخدم: *

عدم السماح: /

كيفية حظر ChatGPT

اختار ChatGPT أيضًا طريقة robots.txt.

يحتوي Chat GPT على رمزين مختلفين لوكيل المستخدم، ChatGPT-User للاستعلامات نيابة عن مستخدمي ChatGPT، وGPTBot، وهو زاحف الويب الخاص بـ OpenAI المستخدم لبناء نماذجهم.

يعامل نظام إلغاء الاشتراك حاليًا كلا وكيلي المستخدم بنفس الطريقة، وبالتالي فإن أي عدم السماح بملف robots.txt لوكيل واحد سيغطي كليهما. وقد يتغير هذا في المستقبل، لذا نوصي بحظرهما بشكل منفصل.

وكيل المستخدم: GTBot

وكيل المستخدم: ChatGPT-User

عدم السماح: /

اختبارات

يكون الاختبار بسيطًا إذا كنت تحظر موقع الويب الخاص بك بالكامل.

للتحقق مما إذا كان Google وChatGPT محظورين، يتعين عليك معرفة ما إذا كان ملف robots.txt الخاص بك يحتوي على قاعدة عدم السماح بكل شيء للروبوتات التي تريد حظرها.

وكيل المستخدم: Google-Extensive

وكيل المستخدم: GPTbot

عدم السماح: /

إذا كنت تريد حظر بعض عناوين URL فقط، فقد يتطلب ذلك مجموعة أكثر تعقيدًا من توجيهات ملف robots.txt. قد تفكر في اختبار عدد من عناوين URL التي تتوقع حظرها وعدم حظرها.

Tomo هي أداة robots.txt المجانية التي يمكن أن تساعدك في اختبار ما إذا كانت عناوين URL محددة محظورة في ملف robots.txt. يمكنك تحديد الاختبارات في شكل قائمة بعناوين URL، والحالة المتوقعة غير المسموح بها لكل عنوان URL.

يمكن تهيئته باستخدام الرموز المميزة لوكيل المستخدم Google-Extending، وGPTBot، وChatGPT-User لتظهر لك عناوين URL المحظورة لكل منها، وما إذا كان ذلك يطابق نتيجة الاختبار المتوقعة.

كلما تم تحديث ملف robots.txt، سيتم إعادة تشغيل الاختبارات وسيتم إعلامك إذا كانت النتائج لا تتطابق مع ما كان متوقعًا.

لاختبار ما إذا كان Bing محظورًا، يمكنك فحص قوالب الصفحة الرئيسية الخاصة بك في المتصفح والتأكد من أنها تحتوي على علامة robots.

إذا كنت تستخدم رأس استجابة X-Robots-Tag، فيمكن رؤيته في علامة تبويب الشبكة عن طريق تحديد الصفحة في قائمة طلبات الشبكة وعرض علامة التبويب "الرؤوس".

سيكون الاختبار أكثر تعقيدًا إذا كنت تحظر مجموعة معينة من الصفحات، ولكن هناك بعض الأدوات التي يمكن أن تساعدك.

سيقوم زاحف Lumar الآن أيضًا بالإبلاغ تلقائيًا عن جميع الصفحات التي تم حظر Google وBing's AIs فيها.

هل تحتاج إلى دعم فني إضافي؟ تعرف على المزيد حول عروض التكنولوجيا التي تقدمها Semetrical أو تواصل معنا للحصول على مزيد من المعلومات!