วิธีบล็อก AI จากการรวบรวมข้อมูลเนื้อหาของคุณ

เผยแพร่แล้ว: 2023-10-24

เครื่องมือสร้าง AI เช่น Google Bard และ Bing Chat สร้างขึ้นจากแหล่งเนื้อหามากมายรวมถึงเว็บ ท่ามกลางความตกตะลึงของหลายๆ คน เสิร์ชเอ็นจิ้นได้ฝึกฝนโมเดล AI ของตนอย่างเงียบๆ ในเนื้อหาทั้งหมดที่พวกเขาพบในขณะที่รวบรวมข้อมูลเพื่อค้นหาเว็บแบบเดิมๆ

Bing และ Google ได้ประกาศวิธีการบล็อกเนื้อหาไม่ให้ใช้ในการฝึกอบรม AI ในขณะที่ยังคงจัดทำดัชนีสำหรับการค้นหาเว็บ

คุณควรบล็อก AIs และคุณจะดำเนินการอย่างไร?

  • คุณควรบล็อก AIs หรือไม่?
  • คุณจะบล็อกบอท AI ได้อย่างไร?
  • วิธีบล็อก AI ของ Bing
  • วิธีบล็อก AI ของ Google
  • วิธีบล็อก ChatGPT
  • การทดสอบ

คุณควรบล็อก AIs หรือไม่?

บริษัทที่ผลิตผลิตภัณฑ์ของตนเองอาจพิจารณาว่าการรวมเนื้อหาของตนไว้ในโมเดล AI เป็นประโยชน์ ข้อมูล เช่น ข้อกำหนดทางเทคนิคหรือการสนับสนุนผลิตภัณฑ์ อาจช่วยในการขายและลดต้นทุนการสนับสนุนลูกค้า

แต่สำหรับธุรกิจออนไลน์อื่นๆ มากมาย เนื้อหาคือผลิตภัณฑ์ของพวกเขา มีความกังวลอย่างถูกต้องว่าพลังงานที่ลงทุนในการสร้างเนื้อหาจะถูกนำมาใช้เพื่อปรับปรุงผลิตภัณฑ์ AI ที่เป็นของบริษัทเทคโนโลยีขนาดใหญ่ โดยไม่ส่งมอบคุณค่าใดๆ ในรูปแบบของการรับส่งข้อมูล

Google และ Bing กำลังพยายามค้นหาวิธีในการให้เครดิตแหล่งที่มาและส่งมอบการเข้าชมจากการอ้างอิงบางส่วน แต่มีแนวโน้มที่จะน้อยกว่าการค้นหาเว็บแบบเดิม และมีแนวโน้มที่จะเป็นธุรกรรมมากกว่าคำค้นหาที่ให้ข้อมูล

สิ่งสำคัญคือต้องทราบว่าการบล็อกเนื้อหาจาก AI เหล่านี้จะไม่ส่งผลต่อพฤติกรรมการรวบรวมข้อมูล Google ระบุว่า 'โทเค็นตัวแทนผู้ใช้ robots.txt ถูกใช้ในความสามารถในการควบคุม' เว็บไซต์ของคุณจะถูกรวบรวมข้อมูลตามปกติโดยบอทเพื่อสร้างดัชนีการค้นหา

และหากเครื่องมือค้นหาถูกบล็อกไม่ให้รวบรวมข้อมูลหน้าเว็บบางหน้าแล้ว คุณไม่จำเป็นต้องบล็อกเครื่องมือค้นหาเหล่านั้นสำหรับ AI โดยเฉพาะ

คุณจะบล็อกบอท AI ได้อย่างไร?

ขณะนี้ คุณสามารถบล็อก Google, Bing และ ChatGPT โดยใช้วิธีที่ SEO ส่วนใหญ่คุ้นเคย ไฟล์ robots.txt และคำสั่งโรบ็อตระดับหน้า

Google และ ChatGPT เลือกใช้วิธี robots.txt ซึ่งช่วยให้คุณระบุรูปแบบ URL ได้ และ Bing ได้เลือกใช้คำสั่ง robots ที่ใช้กับแต่ละหน้า

robots.txt มีข้อดีคือกำหนดค่าได้ง่ายสำหรับทั้งเว็บไซต์ในที่เดียว มีความโปร่งใสมากว่า URL ใดที่ถูกบล็อกเมื่อเปรียบเทียบกับคำสั่งโรบ็อตระดับหน้า ซึ่งจะต้องทดสอบโดยการดึงข้อมูลทุกหน้า

วิธีบล็อก AI ของ Bing

Bing ค้นหาคำสั่ง nocache หรือ noarchive robots ซึ่งสามารถเพิ่มลงในเพจเป็นเมตาแท็กหรือในส่วนหัวการตอบกลับ X-Robots-Tag

Nocache จะอนุญาตให้รวมเพจต่างๆ ไว้ในคำตอบของ Bing Chat โดยใช้เฉพาะ URL ชื่อ และ Snippets ในการฝึกโมเดล AI ของ Microsoft

Noarchive ไม่อนุญาตให้รวมหน้าต่างๆ ใน ​​Bing Chat และจะไม่มีการใช้เนื้อหาใดๆ ในการฝึกอบรมโมเดล AI ของ Microsoft

หากเพจมีทั้ง Nocache และ Noarchive Nocache ที่มีข้อจำกัดน้อยกว่าจะมีความสำคัญกว่า

โทเค็น ' robots ' จะใช้คำสั่งกับโปรแกรมรวบรวมข้อมูลทั้งหมด ซึ่งรวมถึง Google ซึ่งจะป้องกันไม่ให้หน้าเว็บปรากฏพร้อมลิงก์แคชในผลการค้นหา

<meta name=”robots” content=”noarchive”>

คุณสามารถใช้โทเค็น ' bingbot ' หรือ ' msnbot ' ที่เฉพาะเจาะจงมากขึ้นได้ เพื่อหลีกเลี่ยงผลกระทบต่อเครื่องมือค้นหาอื่นๆ

<meta name=”bingbot” content=”nocache”>

วิธีบล็อก AI ของ Google

Google ได้เลือกใช้วิธี robots.txt ซึ่งช่วยให้คุณระบุรูปแบบ URL เพื่อจับคู่หน้าเว็บที่คุณไม่ต้องการใช้ใน Bard และ Vertex API ที่เทียบเท่ากัน ขณะนี้ยังไม่มีผลกับ Search Generative Experience (SGE)

พวกเขาจะจับคู่กับโทเค็น user-agent ของ Google-exted กรณีของโทเค็นไม่สำคัญ

User-agent: Google-ขยาย

ไม่อนุญาต: /

หากไม่มีบล็อกกฎสำหรับโทเค็นส่วนขยายของ Google โดยเฉพาะ บล็อกนั้นจะจับคู่กับโทเค็นตัวแทน (*)

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

โปรดใช้ความระมัดระวังหากคุณมีบล็อกกฎเฉพาะสำหรับ Googlebot และมีบล็อกไวด์การ์ดแยกต่างหาก Google-extensed จะจับคู่บล็อกไวด์การ์ด ไม่ใช่บล็อก Googlebot

ตัวแทนผู้ใช้: Googlebot

อนุญาต: /

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

คุณสามารถแสดงรายการ user-agent หลายรายการก่อนบล็อกกฎเพื่อให้แม่นยำยิ่งขึ้น

User-agent: Google-ขยาย

ตัวแทนผู้ใช้: Googlebot

อนุญาต: /

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

วิธีบล็อก ChatGPT

ChatGPT ยังเลือกใช้วิธี robots.txt อีกด้วย

Chat GPT มีโทเค็นตัวแทนผู้ใช้ที่แตกต่างกัน 2 รายการ ได้แก่ ผู้ใช้ ChatGPT สำหรับการสืบค้นในนามของผู้ใช้ ChatGPT และ GPTBot ซึ่งเป็นโปรแกรมรวบรวมข้อมูลเว็บของ OpenAI ที่ใช้ในการสร้างโมเดล

ขณะนี้ระบบการเลือกไม่ใช้งานจะถือว่า User Agent ทั้งสองเหมือนกัน ดังนั้นการไม่อนุญาต robots.txt สำหรับตัวแทนตัวเดียวจะครอบคลุมทั้งสองรายการ สิ่งนี้อาจมีการเปลี่ยนแปลงในอนาคต ดังนั้นเราขอแนะนำให้บล็อกแยกกัน

ตัวแทนผู้ใช้: GPTBot

ตัวแทนผู้ใช้: ChatGPT-ผู้ใช้

ไม่อนุญาต: /

การทดสอบ

การทดสอบทำได้ง่ายหากคุณบล็อกทั้งเว็บไซต์

หากต้องการตรวจสอบว่า Google และ ChatGPT ถูกบล็อกหรือไม่ คุณต้องดูว่า robots.txt ของคุณมีกฎไม่อนุญาตทุกอย่างสำหรับบอทที่คุณต้องการบล็อกหรือไม่

User-agent: Google-ขยาย

ตัวแทนผู้ใช้: GPTbot

ไม่อนุญาต: /

หากคุณต้องการบล็อกเพียงบาง URL อาจต้องใช้ชุดคำสั่ง robots.txt ที่ซับซ้อนกว่านี้ คุณอาจพิจารณาทดสอบ URL จำนวนหนึ่งที่คุณคาดว่าจะถูกบล็อกและไม่ถูกบล็อก

Tomo คือเครื่องมือ robots.txt ฟรีของเราที่สามารถช่วยคุณทดสอบว่า URL ที่ระบุถูกบล็อกใน robots.txt หรือไม่ คุณสามารถกำหนดการทดสอบในรูปแบบของรายการ URL และสถานะที่ไม่อนุญาตที่คาดหวังสำหรับแต่ละ URL

โดยกำหนดค่าได้ด้วยโทเค็น User Agent ของ Google-Extensed, GPTBot และ ChatGPT-User เพื่อแสดงให้คุณทราบว่า URL ใดที่ถูกบล็อกสำหรับแต่ละรายการ และตรงกับผลการทดสอบที่คาดไว้หรือไม่

เมื่อใดก็ตามที่ไฟล์ robots.txt ของคุณได้รับการอัปเดต การทดสอบจะดำเนินการอีกครั้ง และคุณจะได้รับแจ้งหากผลลัพธ์ไม่ตรงกับที่คาดไว้

หากต้องการทดสอบว่า Bing ถูกบล็อกหรือไม่ คุณสามารถตรวจสอบเทมเพลตหน้าหลักของคุณในเบราว์เซอร์และยืนยันว่ามีแท็ก robots

หากคุณใช้ส่วนหัวการตอบสนอง X-Robots-Tag คุณสามารถดูได้ในแท็บเครือข่ายโดยเลือกหน้าในรายการคำขอเครือข่าย และดูแท็บ 'ส่วนหัว'

การทดสอบจะซับซ้อนมากขึ้นหากคุณบล็อกชุดหน้าเว็บบางหน้า แต่มีเครื่องมือบางอย่างที่สามารถช่วยได้

โปรแกรมรวบรวมข้อมูล Lumar จะรายงานหน้าเว็บทั้งหมดที่มีการบล็อก AI ของ Google และ Bing โดยอัตโนมัติ

คุณต้องการการสนับสนุนทางเทคนิคเพิ่มเติมหรือไม่? เรียนรู้เพิ่มเติมเกี่ยวกับ การนำเสนอเทคโนโลยีของ Semetrical หรือ ติดต่อ เพื่อขอข้อมูลเพิ่มเติม!