Robots.txt ใน SEO คืออะไร: วิธีสร้างและเพิ่มประสิทธิภาพ

เผยแพร่แล้ว: 2022-04-22

หัวข้อของวันนี้ไม่เกี่ยวข้องโดยตรงกับการสร้างรายได้จากการเข้าชม แต่ robots.txt สามารถส่งผลกระทบต่อ SEO ของเว็บไซต์ของคุณ และในที่สุด ปริมาณการรับส่งข้อมูลที่ได้รับ ผู้ดูแลเว็บหลายคนทำลายอันดับเว็บไซต์ของตนเนื่องจากรายการ robots.txt ที่ไม่เรียบร้อย คู่มือนี้จะช่วยคุณหลีกเลี่ยงข้อผิดพลาดทั้งหมด อย่าลืมอ่านให้จบ!

สารบัญ
  • ไฟล์ robots.txt คืออะไร
  • ไฟล์ robots.txt มีลักษณะอย่างไร
  • วิธีค้นหาไฟล์ robots.txt ของคุณ
  • ไฟล์ Robots.txt ทำงานอย่างไร
  • ไวยากรณ์ Robots.txt
  • คำสั่งที่รองรับ
  • ตัวแทนผู้ใช้*
  • อนุญาต
  • ไม่อนุญาต
  • แผนผังเว็บไซต์
  • คำสั่งที่ไม่รองรับ
  • รวบรวมข้อมูลล่าช้า
  • Noindex
  • ไม่ปฏิบัติตาม
  • คุณต้องการไฟล์ robots.txt หรือไม่?
  • การสร้างไฟล์ robots.txt
  • ไฟล์ Robots.txt: แนวทางปฏิบัติที่ดีที่สุดสำหรับ SEO
  • ใช้บรรทัดใหม่สำหรับแต่ละคำสั่ง
  • ใช้สัญลักษณ์แทนเพื่อลดความซับซ้อนของคำแนะนำ
  • ใช้เครื่องหมายดอลลาร์ “$” เพื่อระบุส่วนท้ายของ URL
  • ใช้แต่ละ user-agent เพียงครั้งเดียว
  • ใช้คำแนะนำเฉพาะเพื่อหลีกเลี่ยงข้อผิดพลาดที่ไม่ได้ตั้งใจ
  • ป้อนความคิดเห็นในไฟล์ robots.txt ด้วย hash
  • ใช้ไฟล์ robots.txt ที่แตกต่างกันสำหรับแต่ละโดเมนย่อย
  • อย่าปิดกั้นเนื้อหาที่ดี
  • อย่าใช้ความล่าช้าในการรวบรวมข้อมูลมากเกินไป
  • ใส่ใจกับความละเอียดอ่อนของตัวพิมพ์
  • แนวทางปฏิบัติที่ดีที่สุดอื่นๆ:
  • การใช้ robots.txt เพื่อป้องกันการสร้างดัชนีเนื้อหา
  • การใช้ robots.txt เพื่อป้องกันเนื้อหาส่วนตัว
  • การใช้ robots.txt เพื่อซ่อนเนื้อหาที่ซ้ำกันที่เป็นอันตราย
  • เข้าถึงได้ทั้งหมดสำหรับบอททั้งหมด
  • ไม่มีการเข้าถึงสำหรับบอททั้งหมด
  • บล็อกไดเรกทอรีย่อยหนึ่งรายการสำหรับบอททั้งหมด
  • บล็อกไดเรกทอรีย่อยหนึ่งรายการสำหรับบอททั้งหมด (โดยอนุญาตให้มีไฟล์เดียว)
  • บล็อกไฟล์เดียวสำหรับบอททั้งหมด
  • บล็อกหนึ่งประเภทไฟล์ (PDF) สำหรับบอททั้งหมด
  • บล็อก URL ที่มีการกำหนดพารามิเตอร์ทั้งหมดสำหรับ Googlebot เท่านั้น
  • วิธีทดสอบไฟล์ robots.txt เพื่อหาข้อผิดพลาด
  • URL ที่ส่งถูกบล็อกโดย robots.txt
  • ถูกบล็อกโดย robots.txt
  • จัดทำดัชนี แม้ว่าจะถูกบล็อกโดย robots.txt
  • Robots.txt เทียบกับ meta robots เทียบกับ x-robots
  • อ่านเพิ่มเติม
  • ห่อ

ไฟล์ robots.txt คืออะไร

robots.txt หรือโปรโตคอลการยกเว้นโรบ็อตคือชุดของมาตรฐานเว็บที่ควบคุมวิธีที่โรบ็อตของเครื่องมือค้นหารวบรวมข้อมูลทุกหน้าเว็บ ไปจนถึงมาร์กอัปสคีมาในหน้านั้น เป็นไฟล์ข้อความมาตรฐานที่สามารถป้องกันไม่ให้โปรแกรมรวบรวมข้อมูลเว็บเข้าถึงเว็บไซต์ทั้งหมดหรือบางส่วนของเว็บไซต์ได้

ในขณะที่ปรับ SEO และแก้ปัญหาทางเทคนิค คุณสามารถเริ่มรับรายได้จากโฆษณาได้ รหัสบรรทัดเดียวในเว็บไซต์ของคุณส่งคืนการจ่ายเงินเป็นประจำ!

หารายได้จากโฆษณา
ไปที่เนื้อหา↑

ไฟล์ robots.txt มีลักษณะอย่างไร

ไวยากรณ์เรียบง่าย: คุณกำหนดกฎบอทโดยระบุตัวแทนผู้ใช้และคำสั่ง ไฟล์มีรูปแบบพื้นฐานดังต่อไปนี้:

แผนผังเว็บไซต์: [ตำแหน่ง URL ของแผนผังเว็บไซต์]

User-agent: [ตัวระบุบอท]

[คำสั่ง 1]

[คำสั่ง 2]

[คำสั่ง…]

User-agent: [ตัวระบุบอทอื่น]

[คำสั่ง 1]

[คำสั่ง 2]

[คำสั่ง…]

วิธีค้นหาไฟล์ robots.txt ของคุณ

หากเว็บไซต์ของคุณมีไฟล์ robot.txt อยู่แล้ว คุณสามารถค้นหาได้โดยไปที่ URL นี้: https://yourdomainname.com/robots.txt ในเบราว์เซอร์ของคุณ ตัวอย่างเช่น นี่คือไฟล์ของเรา

robot-txt-file
ไปที่เนื้อหา↑

ไฟล์ Robots.txt ทำงานอย่างไร

ไฟล์ robots.txt เป็นไฟล์ข้อความธรรมดาที่ไม่มีโค้ดมาร์กอัป HTML (จึงเป็นนามสกุล .txt) ไฟล์นี้ เช่นเดียวกับไฟล์อื่นๆ ทั้งหมดบนเว็บไซต์ ถูกจัดเก็บไว้บนเว็บเซิร์ฟเวอร์ ผู้ใช้ไม่น่าจะเข้าชมหน้านี้เนื่องจากไม่ได้เชื่อมโยงกับหน้าเว็บใดๆ ของคุณ แต่บ็อตของโปรแกรมรวบรวมข้อมูลเว็บส่วนใหญ่จะค้นหาหน้านี้ก่อนที่จะรวบรวมข้อมูลเว็บไซต์ทั้งหมด

ไฟล์ robots.txt สามารถให้คำแนะนำบ็อตได้ แต่ไม่สามารถบังคับใช้คำแนะนำเหล่านั้นได้ บอทที่ดี เช่น โปรแกรมรวบรวมข้อมูลเว็บหรือบอทฟีดข่าว จะตรวจสอบไฟล์และปฏิบัติตามคำแนะนำก่อนที่จะไปที่หน้าโดเมนใดๆ แต่บอทที่เป็นอันตรายจะเพิกเฉยหรือประมวลผลไฟล์เพื่อค้นหาหน้าเว็บที่ต้องห้าม

ในสถานการณ์ที่ไฟล์ robots.txt มีคำสั่งที่ขัดแย้งกัน บอทจะใช้ชุดคำสั่งที่เจาะจงที่สุด

ไปที่เนื้อหา↑

ไวยากรณ์ Robots.txt

ไฟล์ robots.txt ประกอบด้วย 'คำสั่ง' หลายส่วน โดยแต่ละส่วนเริ่มต้นด้วย user-agent user-agent ระบุบอทการตระเวนที่โค้ดใช้สื่อสาร คุณสามารถระบุเครื่องมือค้นหาทั้งหมดพร้อมกันหรือจัดการเครื่องมือค้นหาแต่ละรายการ

เมื่อใดก็ตามที่บอทรวบรวมข้อมูลเว็บไซต์ บอทจะทำหน้าที่ในส่วนของไซต์ที่เรียกมัน

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

User-agent: Googlebot

ไม่อนุญาต:

ตัวแทนผู้ใช้: Bingbot

ไม่อนุญาต: /not-for-bing/

คำสั่งที่รองรับ

คำสั่งเป็นแนวทางที่คุณต้องการให้ตัวแทนผู้ใช้ที่คุณประกาศปฏิบัติตาม ปัจจุบัน Google สนับสนุนคำสั่งต่อไปนี้

ตัวแทนผู้ใช้*

เมื่อโปรแกรมเชื่อมต่อกับเว็บเซิร์ฟเวอร์ (หุ่นยนต์หรือเว็บเบราว์เซอร์ทั่วไป) จะส่งส่วนหัว HTTP ที่เรียกว่า "ตัวแทนผู้ใช้" ที่มีข้อมูลพื้นฐานเกี่ยวกับข้อมูลประจำตัว เครื่องมือค้นหาทุกเครื่องมีตัวแทนผู้ใช้ หุ่นยนต์ของ Google เป็นที่รู้จักในชื่อ Googlebot, Yahoo's - ในชื่อ Slurp และ Bing - ในชื่อ BingBot user-agent เริ่มต้นลำดับของคำสั่ง ซึ่งสามารถนำไปใช้กับ user-agent เฉพาะหรือ user-agent ทั้งหมด

อนุญาต

คำสั่ง allow จะบอกเครื่องมือค้นหาให้รวบรวมข้อมูลหน้าหรือไดเรกทอรีย่อย แม้แต่ไดเรกทอรีที่จำกัด ตัวอย่างเช่น หากคุณต้องการให้เสิร์ชเอ็นจิ้นไม่สามารถเข้าถึงโพสต์ทั้งหมดในบล็อกของคุณ ยกเว้นโพสต์เดียว ไฟล์ robots.txt ของคุณอาจมีลักษณะดังนี้:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /blog

อนุญาต: /blog/allowed-post

อย่างไรก็ตาม เสิร์ชเอ็นจิ้นสามารถเข้าถึง /blog/allowed-post แต่ไม่สามารถเข้าถึง:

/blog/another-post

/blog/yet-another-post

/blog/download-me.pd

ไม่อนุญาต

คำสั่ง disallow (ซึ่งถูกเพิ่มลงในไฟล์ robots.txt ของเว็บไซต์) บอกให้เครื่องมือค้นหาไม่รวบรวมข้อมูลหน้าใดหน้าหนึ่งโดยเฉพาะ ในกรณีส่วนใหญ่ การทำเช่นนี้จะป้องกันไม่ให้หน้าปรากฏในผลการค้นหา

คุณสามารถใช้คำสั่งนี้เพื่อสั่งไม่ให้เครื่องมือค้นหารวบรวมข้อมูลไฟล์และหน้าในโฟลเดอร์เฉพาะที่คุณซ่อนจากบุคคลทั่วไป ตัวอย่างเช่น เนื้อหาที่คุณยังคงทำงานอยู่แต่เผยแพร่ผิดพลาด ไฟล์ robots.txt ของคุณอาจมีลักษณะดังนี้หากคุณต้องการป้องกันไม่ให้เครื่องมือค้นหาทั้งหมดเข้าถึงบล็อกของคุณ:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /blog

ซึ่งหมายความว่าไดเรกทอรีย่อยทั้งหมดของไดเร็กทอรี /blog จะไม่ถูกรวบรวมข้อมูลด้วย นอกจากนี้ยังจะบล็อก Google ไม่ให้เข้าถึง URL ที่มี /blog

ไปที่เนื้อหา↑

แผนผังเว็บไซต์

แผนผังเว็บไซต์คือรายการของหน้าที่คุณต้องการให้เครื่องมือค้นหารวบรวมข้อมูลและจัดทำดัชนี หากคุณใช้คำสั่งแผนผังเว็บไซต์ เครื่องมือค้นหาจะทราบตำแหน่งของแผนผังเว็บไซต์ XML ของคุณ ตัวเลือกที่ดีที่สุดคือการส่งไปยังเครื่องมือของผู้ดูแลเว็บของเครื่องมือค้นหาเพราะแต่ละรายการสามารถให้ข้อมูลที่มีค่าเกี่ยวกับเว็บไซต์ของคุณสำหรับผู้เยี่ยมชม

สิ่งสำคัญที่ควรทราบคือ การทำซ้ำคำสั่งแผนผังเว็บไซต์สำหรับ user-agent แต่ละรายนั้นไม่จำเป็น และไม่ใช้กับตัวแทนการค้นหาเพียงรายเดียว เพิ่มคำสั่งแผนผังเว็บไซต์ที่จุดเริ่มต้นหรือจุดสิ้นสุดของไฟล์ robots.txt

ตัวอย่างของคำสั่งแผนผังเว็บไซต์ในไฟล์:

แผนผังเว็บไซต์: https://www.domain.com/sitemap.xml

User-agent: Googlebot

ไม่อนุญาต: /บล็อก/

อนุญาต: /blog/post-title/

ตัวแทนผู้ใช้: Bingbot

ไม่อนุญาต: /บริการ/

ไปที่เนื้อหา↑

คำสั่งที่ไม่รองรับ

ต่อไปนี้คือคำสั่งที่ Google ไม่สนับสนุนอีกต่อไป ซึ่งบางคำสั่งไม่ได้รับการรับรองในทางเทคนิค

รวบรวมข้อมูลล่าช้า

Yahoo, Bing และ Yandex ตอบสนองต่อการสร้างดัชนีของเว็บไซต์อย่างรวดเร็วและตอบสนองต่อคำสั่งการหน่วงเวลาการรวบรวมข้อมูล ซึ่งช่วยให้ตรวจสอบได้ชั่วขณะหนึ่ง

ใช้บรรทัดนี้กับบล็อกของคุณ:

ตัวแทนผู้ใช้: Bingbot

รวบรวมข้อมูลล่าช้า: 10

หมายความว่าเสิร์ชเอ็นจิ้นสามารถรอสิบวินาทีก่อนที่จะรวบรวมข้อมูลเว็บไซต์หรือสิบวินาทีก่อนที่จะเข้าถึงเว็บไซต์อีกครั้งหลังจากรวบรวมข้อมูลซึ่งเป็นสิ่งเดียวกัน แต่แตกต่างกันเล็กน้อยขึ้นอยู่กับตัวแทนผู้ใช้ที่ใช้งาน

Noindex

เมตาแท็ก noindex เป็นวิธีที่ยอดเยี่ยมในการป้องกันไม่ให้เครื่องมือค้นหาจัดทำดัชนีหน้าใดหน้าหนึ่งของคุณ แท็กนี้อนุญาตให้บอทเข้าถึงหน้าเว็บ แต่ยังแจ้งให้โรบ็อตไม่จัดทำดัชนี

  • ส่วนหัว HTTP Response พร้อมแท็ก noindex คุณสามารถใช้แท็กนี้ได้สองวิธี: ส่วนหัวการตอบสนอง HTTP ที่มี X-Robots-Tag หรือแท็ก <meta> ที่วางอยู่ภายในส่วน <head> นี่คือลักษณะที่แท็ก <meta> ของคุณควรมีลักษณะ:

<ชื่อเมตา=”หุ่นยนต์”เนื้อหา=”noindex”>

  • รหัสสถานะ HTTP 404 & 410 รหัสสถานะ 404 และ 410 ระบุว่าไม่มีหน้าดังกล่าวแล้ว หลังจากรวบรวมข้อมูลและประมวลผลหน้า 404/410 แล้ว ระบบจะลบออกจากดัชนีของ Google โดยอัตโนมัติ เพื่อลดความเสี่ยงของหน้าข้อผิดพลาด 404 และ 410 ให้รวบรวมข้อมูลเว็บไซต์ของคุณเป็นประจำและใช้การเปลี่ยนเส้นทาง 301 เพื่อนำการเข้าชมไปยังหน้าที่มีอยู่ตามความจำเป็น
ไปที่เนื้อหา↑

ไม่ปฏิบัติตาม

Nofollow สั่งให้เครื่องมือค้นหาไม่ติดตามลิงก์ในหน้าและไฟล์ภายใต้เส้นทางเฉพาะ ตั้งแต่วันที่ 1 มีนาคม 2020 Google จะไม่ถือว่าแอตทริบิวต์ nofollow เป็นคำสั่งอีกต่อไป แต่จะเป็นการบอกใบ้แทน เช่นเดียวกับแท็กบัญญัติ หากคุณต้องการแอตทริบิวต์ "nofollow" สำหรับลิงก์ทั้งหมดบนหน้าเว็บ ให้ใช้เมตาแท็กของโรบ็อต ส่วนหัว x-robots หรือแอตทริบิวต์ลิงก์ rel= "nofollow"

ก่อนหน้านี้ คุณสามารถใช้คำสั่งต่อไปนี้เพื่อป้องกันไม่ให้ Google ติดตามลิงก์ทั้งหมดในบล็อกของคุณ:

User-agent: Googlebot

กดติดตาม: /blog/

คุณต้องการไฟล์ robots.txt หรือไม่?

เว็บไซต์ที่ซับซ้อนน้อยกว่าจำนวนมากไม่จำเป็นต้องมี แม้ว่าโดยปกติ Google จะไม่สร้างดัชนีหน้าเว็บที่ถูกบล็อกโดย robots.txt แต่ก็ไม่มีทางรับประกันได้ว่าหน้าเหล่านี้จะไม่ปรากฏในผลการค้นหา การมีไฟล์นี้จะช่วยให้คุณควบคุมและรักษาความปลอดภัยเนื้อหาบนเว็บไซต์ของคุณได้มากกว่าเครื่องมือค้นหา

ไฟล์ Robots ยังช่วยให้คุณทำสิ่งต่อไปนี้ได้สำเร็จ:

  • ป้องกันไม่ให้มีการรวบรวมข้อมูลเนื้อหาที่ซ้ำกัน
  • รักษาความเป็นส่วนตัวสำหรับส่วนต่างๆ ของเว็บไซต์
  • จำกัดการรวบรวมข้อมูลผลการค้นหาภายใน
  • ป้องกันไม่ให้เซิร์ฟเวอร์โอเวอร์โหลด
  • ป้องกันไม่ให้ “รวบรวมข้อมูลงบประมาณ” สูญเปล่า
  • เก็บรูปภาพ วิดีโอ และไฟล์ทรัพยากรออกจากผลการค้นหาของ Google

มาตรการเหล่านี้ส่งผลต่อกลยุทธ์ SEO ของคุณในที่สุด ตัวอย่างเช่น เนื้อหาที่ซ้ำกันจะสร้างความสับสนให้กับเครื่องมือค้นหาและบังคับให้พวกเขาเลือกว่าจะให้หน้าใดในสองอันดับแรก ไม่ว่าใครเป็นคนสร้างเนื้อหา Google อาจไม่เลือกหน้าเดิมสำหรับผลการค้นหายอดนิยม

ในกรณีที่ Google ตรวจพบเนื้อหาที่ซ้ำกันซึ่งมีจุดประสงค์เพื่อหลอกลวงผู้ใช้หรือบิดเบือนการจัดอันดับ พวกเขาจะปรับการจัดทำดัชนีและการจัดอันดับเว็บไซต์ของคุณ ด้วยเหตุนี้ การจัดอันดับเว็บไซต์ของคุณจึงอาจได้รับผลกระทบหรือถูกลบออกจากดัชนีของ Google โดยสิ้นเชิง และหายไปจากผลการค้นหา

การรักษาความเป็นส่วนตัวสำหรับส่วนต่างๆ ของเว็บไซต์ยังช่วยปรับปรุงความปลอดภัยของเว็บไซต์ของคุณและปกป้องเว็บไซต์จากแฮกเกอร์อีกด้วย ในระยะยาว มาตรการเหล่านี้จะทำให้เว็บไซต์ของคุณปลอดภัย น่าเชื่อถือ และให้ผลกำไรมากขึ้น

คุณเป็นเจ้าของเว็บไซต์ที่ต้องการทำกำไรจากการเข้าชมหรือไม่? ด้วย Adsterra คุณจะได้รับรายได้จากทุกเว็บไซต์!

เข้าร่วมและรับ
ไปที่เนื้อหา↑

การสร้างไฟล์ robots.txt

คุณจะต้องใช้โปรแกรมแก้ไขข้อความ เช่น Notepad

  1. สร้างแผ่นงานใหม่ บันทึกหน้าว่างเป็น 'robots.txt' และเริ่มพิมพ์คำสั่งในเอกสาร .txt เปล่า
  2. เข้าสู่ระบบ cPanel ของคุณ ไปที่ไดเร็กทอรีรากของไซต์ ค้นหาโฟลเดอร์ public_html
  3. ลากไฟล์ของคุณไปที่โฟลเดอร์นี้ จากนั้นตรวจสอบอีกครั้งว่าสิทธิ์ของไฟล์นั้นตั้งค่าไว้ถูกต้องหรือไม่

คุณสามารถเขียน อ่าน และแก้ไขไฟล์ได้ในฐานะเจ้าของ แต่ไม่อนุญาตให้บุคคลที่สาม รหัสอนุญาต "0644" ควรปรากฏในไฟล์ หากไม่เป็นเช่นนั้น ให้คลิกขวาที่ไฟล์แล้วเลือก "การอนุญาตไฟล์"

ไฟล์ Robots.txt: แนวทางปฏิบัติที่ดีที่สุดสำหรับ SEO

ใช้บรรทัดใหม่สำหรับแต่ละคำสั่ง

คุณต้องประกาศคำสั่งแต่ละบรรทัดแยกกัน มิฉะนั้น เครื่องมือค้นหาจะสับสน

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /directory/

ไม่อนุญาต: /another-directory/

ใช้สัญลักษณ์แทนเพื่อลดความซับซ้อนของคำแนะนำ

คุณสามารถใช้สัญลักษณ์แทน (*) สำหรับ user-agent ทั้งหมด และจับคู่รูปแบบ URL เมื่อประกาศคำสั่ง Wildcard ทำงานได้ดีกับ URL ที่มีรูปแบบเหมือนกัน ตัวอย่างเช่น คุณอาจต้องการป้องกันไม่ให้มีการรวบรวมข้อมูลหน้าตัวกรองทั้งหมดที่มีเครื่องหมายคำถาม (?) ใน URL

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /*?

ใช้เครื่องหมายดอลลาร์ “$” เพื่อระบุส่วนท้ายของ URL

เครื่องมือค้นหาไม่สามารถเข้าถึง URL ที่ลงท้ายด้วยนามสกุลเช่น .pdf นั่นหมายความว่าพวกเขาจะเข้าถึง /file.pdf ไม่ได้ แต่จะสามารถเข้าถึง /file.pdf?id=68937586 ซึ่งไม่ได้ลงท้ายด้วย “.pdf” ตัวอย่างเช่น หากคุณต้องการป้องกันไม่ให้เครื่องมือค้นหาเข้าถึงไฟล์ PDF ทั้งหมดบนเว็บไซต์ของคุณ ไฟล์ robots.txt ของคุณอาจมีลักษณะดังนี้:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /*.pdf$

ใช้แต่ละ user-agent เพียงครั้งเดียว

ใน Google ไม่สำคัญว่าคุณจะใช้ user-agent เดียวกันมากกว่าหนึ่งครั้งหรือไม่ มันจะรวบรวมกฎทั้งหมดจากการประกาศต่างๆ ให้เป็นคำสั่งเดียวและปฏิบัติตาม อย่างไรก็ตาม การประกาศ user-agent แต่ละรายการเพียงครั้งเดียวก็สมเหตุสมผลแล้ว เพราะมันทำให้เกิดความสับสนน้อยลง

การรักษาคำสั่งของคุณให้เป็นระเบียบและเรียบง่ายช่วยลดความเสี่ยงของข้อผิดพลาดร้ายแรง ตัวอย่างเช่น หากไฟล์ robots.txt ของคุณมี user-agent และคำสั่งต่อไปนี้

User-agent: Googlebot

ไม่อนุญาต: /a/

User-agent: Googlebot

ไม่อนุญาต: /b/

ใช้คำแนะนำเฉพาะเพื่อหลีกเลี่ยงข้อผิดพลาดที่ไม่ได้ตั้งใจ

เมื่อตั้งค่าคำสั่ง การไม่ให้คำแนะนำที่เฉพาะเจาะจงอาจทำให้เกิดข้อผิดพลาดที่อาจเป็นอันตรายต่อ SEO ของคุณ สมมติว่าคุณมีไซต์หลายภาษาและกำลังทำงานในเวอร์ชันภาษาเยอรมันสำหรับไดเร็กทอรีย่อย /de/

คุณไม่ต้องการให้เครื่องมือค้นหาสามารถเข้าถึงได้เนื่องจากยังไม่พร้อม ไฟล์ robots.txt ต่อไปนี้จะป้องกันไม่ให้เครื่องมือค้นหาสร้างดัชนีโฟลเดอร์ย่อยนั้นและเนื้อหา:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /de

อย่างไรก็ตาม จะจำกัดเครื่องมือค้นหาไม่ให้รวบรวมข้อมูลหน้าหรือไฟล์ใดๆ ที่ขึ้นต้นด้วย /de ในกรณีนี้ การเพิ่มเครื่องหมายทับเป็นวิธีแก้ปัญหาง่ายๆ

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /de/

ไปที่เนื้อหา↑

ป้อนความคิดเห็นในไฟล์ robots.txt ด้วย hash

ความคิดเห็นช่วยให้นักพัฒนาและแม้กระทั่งคุณเข้าใจไฟล์ robots.txt ของคุณ ขึ้นต้นบรรทัดด้วยแฮช (#) เพื่อใส่ความคิดเห็น โปรแกรมรวบรวมข้อมูลละเว้นบรรทัดที่ขึ้นต้นด้วยแฮช

# สิ่งนี้สั่งให้บอท Bing ไม่รวบรวมข้อมูลเว็บไซต์ของเรา

ตัวแทนผู้ใช้: Bingbot

ไม่อนุญาต: /

ใช้ไฟล์ robots.txt ที่แตกต่างกันสำหรับแต่ละโดเมนย่อย

Robots.txt มีผลกับการรวบรวมข้อมูลในโดเมนโฮสต์เท่านั้น คุณจะต้องใช้ไฟล์อื่นเพื่อจำกัดการรวบรวมข้อมูลในโดเมนย่อยอื่น ตัวอย่างเช่น หากคุณโฮสต์เว็บไซต์หลักบน example.com และบล็อกของคุณบน blog.example.com คุณจะต้องมีไฟล์ robots.txt สองไฟล์ วางไฟล์หนึ่งไว้ในไดเร็กทอรีรากของโดเมนหลัก ในขณะที่ไฟล์อื่นควรอยู่ในไดเร็กทอรีรากของบล็อก

อย่าปิดกั้นเนื้อหาที่ดี

อย่าใช้ไฟล์ robots.txt หรือแท็ก noindex เพื่อบล็อกเนื้อหาคุณภาพใดๆ ที่คุณต้องการเผยแพร่สู่สาธารณะ เพื่อหลีกเลี่ยงผลกระทบด้านลบต่อผลลัพธ์ SEO ตรวจสอบแท็ก noindex อย่างละเอียดและไม่อนุญาตกฎในหน้าเว็บของคุณ

อย่าใช้ความล่าช้าในการรวบรวมข้อมูลมากเกินไป

เราได้อธิบายความล่าช้าในการรวบรวมข้อมูลแล้ว แต่คุณไม่ควรใช้บ่อย เพราะมันจำกัดบอทจากการรวบรวมข้อมูลทุกหน้า อาจใช้ได้กับบางเว็บไซต์ แต่คุณอาจส่งผลเสียต่ออันดับและการเข้าชมหากคุณมีเว็บไซต์ขนาดใหญ่

ใส่ใจกับความละเอียดอ่อนของตัวพิมพ์

ไฟล์ Robots.txt คำนึงถึงขนาดตัวพิมพ์ ดังนั้นคุณต้องแน่ใจว่าคุณสร้างไฟล์ Robots ในรูปแบบที่ถูกต้อง ไฟล์โรบ็อตควรตั้งชื่อว่า 'robots.txt' โดยใช้อักษรตัวพิมพ์เล็กทั้งหมด มิฉะนั้นมันจะไม่ทำงาน

แนวทางปฏิบัติที่ดีที่สุดอื่นๆ:

  • ตรวจสอบให้แน่ใจว่าคุณไม่ได้บล็อกเนื้อหาหรือส่วนต่างๆ ของเว็บไซต์จากการรวบรวมข้อมูล
  • อย่าใช้ robots.txt เพื่อเก็บข้อมูลสำคัญ (ข้อมูลผู้ใช้ส่วนตัว) ออกจากผลลัพธ์ SERP ใช้วิธีการอื่น เช่น การเข้ารหัสข้อมูลหรือคำสั่ง meta ของ noindex เพื่อจำกัดการเข้าถึงหากหน้าอื่นลิงก์โดยตรงไปยังหน้าส่วนตัว
  • เครื่องมือค้นหาบางตัวมี user-agent มากกว่าหนึ่งตัว ตัวอย่างเช่น Google ใช้ Googlebot สำหรับการค้นหาทั่วไปและ Googlebot-Image สำหรับรูปภาพ ไม่จำเป็นต้องระบุคำสั่งสำหรับโปรแกรมรวบรวมข้อมูลหลายตัวของเครื่องมือค้นหาแต่ละรายการ เนื่องจากตัวแทนผู้ใช้ส่วนใหญ่จากเครื่องมือค้นหาเดียวกันใช้กฎเดียวกัน
  • เครื่องมือค้นหาแคชเนื้อหา robots.txt แต่อัปเดตทุกวัน หากคุณเปลี่ยนไฟล์และต้องการอัปเดตเร็วขึ้น คุณสามารถส่ง URL ของไฟล์ไปยัง Google
ไปที่เนื้อหา↑

การใช้ robots.txt เพื่อป้องกันการสร้างดัชนีเนื้อหา

การปิดใช้งานหน้าเป็นวิธีที่มีประสิทธิภาพมากที่สุดในการป้องกันบอทจากการรวบรวมข้อมูลโดยตรง อย่างไรก็ตาม จะใช้ไม่ได้ในสถานการณ์ต่อไปนี้:

  • หากแหล่งที่มาอื่นมีลิงก์ไปยังหน้า บอทจะยังรวบรวมข้อมูลและจัดทำดัชนี
  • บอทที่ผิดกฎหมายจะรวบรวมข้อมูลและจัดทำดัชนีเนื้อหาต่อไป

การใช้ robots.txt เพื่อป้องกันเนื้อหาส่วนตัว

เนื้อหาส่วนตัวบางอย่าง เช่น PDF หรือหน้าขอบคุณ ยังสามารถจัดทำดัชนีได้แม้ว่าคุณจะบล็อกบอท การวางหน้าพิเศษทั้งหมดไว้ด้านหลังการเข้าสู่ระบบเป็นวิธีที่ดีที่สุดวิธีหนึ่งในการเสริมความแข็งแกร่งให้กับคำสั่งที่ไม่อนุญาต เนื้อหาของคุณจะยังคงมีอยู่ แต่ผู้เยี่ยมชมของคุณจะใช้ขั้นตอนเพิ่มเติมในการเข้าถึงเนื้อหา

การใช้ robots.txt เพื่อซ่อนเนื้อหาที่ซ้ำกันที่เป็นอันตราย

เนื้อหาที่ซ้ำกันจะเหมือนกันหรือคล้ายกันมากกับเนื้อหาอื่นในภาษาเดียวกัน Google พยายามจัดทำดัชนีและแสดงหน้าเว็บที่มีเนื้อหาเฉพาะ ตัวอย่างเช่น หากไซต์ของคุณมีเวอร์ชัน "ปกติ" และ "เครื่องพิมพ์" ของแต่ละบทความ และแท็ก noindex จะไม่บล็อกทั้งสองรายการ พวกเขาจะแสดงรายการใดเวอร์ชันหนึ่ง

ตัวอย่างไฟล์ robots.txt

ต่อไปนี้คือไฟล์ robots.txt ตัวอย่างบางส่วน สิ่งเหล่านี้มีไว้สำหรับแนวคิดเป็นหลัก แต่ถ้าหนึ่งในนั้นตรงตามความต้องการของคุณ ให้คัดลอกและวางลงในเอกสารข้อความ บันทึกเป็น “robots.txt” แล้วอัปโหลดไปยังไดเร็กทอรีที่เหมาะสม

เข้าถึงได้ทั้งหมดสำหรับบอททั้งหมด

มีหลายวิธีในการบอกให้เสิร์ชเอ็นจิ้นเข้าถึงไฟล์ทั้งหมด รวมถึงการมีไฟล์ robots.txt เปล่าหรือไม่มีเลย

ตัวแทนผู้ใช้: *

ไม่อนุญาต:

ไม่มีการเข้าถึงสำหรับบอททั้งหมด

ไฟล์ robots.txt ต่อไปนี้แนะนำให้เครื่องมือค้นหาทั้งหมดหลีกเลี่ยงการเข้าถึงเว็บไซต์ทั้งหมด:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

บล็อกไดเรกทอรีย่อยหนึ่งรายการสำหรับบอททั้งหมด

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /โฟลเดอร์/

บล็อกไดเรกทอรีย่อยหนึ่งรายการสำหรับบอททั้งหมด (โดยอนุญาตให้มีไฟล์เดียว)

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /โฟลเดอร์/

อนุญาต: /folder/page.html

บล็อกไฟล์เดียวสำหรับบอททั้งหมด

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /this-is-a-file.pdf

บล็อกหนึ่งประเภทไฟล์ (PDF) สำหรับบอททั้งหมด

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /*.pdf$

บล็อก URL ที่มีการกำหนดพารามิเตอร์ทั้งหมดสำหรับ Googlebot เท่านั้น

User-agent: Googlebot

ไม่อนุญาต: /*?

วิธีทดสอบไฟล์ robots.txt เพื่อหาข้อผิดพลาด

ข้อผิดพลาดใน Robots.txt อาจรุนแรงได้ ดังนั้นการตรวจสอบข้อผิดพลาดจึงเป็นเรื่องสำคัญ ตรวจสอบ รายงาน "ความครอบคลุม" ใน Search Console เป็นประจำเพื่อดูปัญหาที่เกี่ยวข้องกับ robot.txt ข้อผิดพลาดบางอย่างที่คุณอาจพบ ความหมาย และวิธีแก้ไขมีดังนี้

URL ที่ส่งถูกบล็อกโดย robots.txt

blocked_url

ซึ่งบ่งชี้ว่า robots.txt ได้บล็อก URL อย่างน้อยหนึ่งรายการในแผนผังไซต์ของคุณ หากแผนผังไซต์ของคุณถูกต้องและไม่มีหน้า Canonicalized, noindexed หรือเปลี่ยนเส้นทาง ดังนั้น robots.txt ไม่ควรบล็อกหน้าใดๆ ที่คุณส่ง หากเป็นเช่นนั้น ให้ระบุหน้าที่ได้รับผลกระทบและลบการบล็อกออกจากไฟล์ robots.txt ของคุณ

คุณสามารถใช้เครื่องมือทดสอบ robots.txt ของ Google เพื่อระบุคำสั่งการบล็อก โปรดใช้ความระมัดระวังเมื่อแก้ไขไฟล์ robots.txt เนื่องจากข้อผิดพลาดอาจส่งผลต่อหน้าหรือไฟล์อื่นๆ

robots-txt-tester
ไปที่เนื้อหา↑

ถูกบล็อกโดย robots.txt

ข้อผิดพลาดนี้บ่งชี้ว่า robots.txt ได้บล็อกเนื้อหาที่ Google ไม่สามารถจัดทำดัชนีได้ ลบบล็อกการรวบรวมข้อมูลใน robots.txt หากเนื้อหานี้มีความสำคัญและควรได้รับการจัดทำดัชนี (นอกจากนี้ ให้ตรวจสอบว่าเนื้อหาไม่ได้มีการจัดทำดัชนีไว้)

หากคุณต้องการแยกเนื้อหาออกจากดัชนีของ Google ให้ใช้เมตาแท็กของโรบ็อตหรือส่วนหัว x-robots และลบบล็อกการรวบรวมข้อมูล นั่นเป็นวิธีเดียวที่จะป้องกันไม่ให้เนื้อหาอยู่ในดัชนีของ Google

จัดทำดัชนี แม้ว่าจะถูกบล็อกโดย robots.txt

หมายความว่า Google ยังคงสร้างดัชนีเนื้อหาบางส่วนที่ถูกบล็อกโดย robots.txt Robots.txt ไม่ใช่วิธีแก้ปัญหาเพื่อป้องกันไม่ให้เนื้อหาของคุณแสดงในผลการค้นหาของ Google

เพื่อป้องกันการสร้างดัชนี ให้ลบบล็อกการรวบรวมข้อมูลและแทนที่ด้วยแท็ก meta robots หรือส่วนหัว HTTP x-robots-tag หากคุณบล็อกเนื้อหานี้โดยไม่ได้ตั้งใจและต้องการให้ Google จัดทำดัชนี ให้ลบบล็อกการรวบรวมข้อมูลใน robots.txt สามารถช่วยในการปรับปรุงการมองเห็นเนื้อหาในการค้นหาของ Google

Robots.txt เทียบกับ meta robots เทียบกับ x-robots

อะไรคือความแตกต่างของคำสั่งหุ่นยนต์ทั้งสามนี้? Robots.txt เป็นไฟล์ข้อความธรรมดา ในขณะที่ meta และ x-robots เป็นคำสั่ง meta นอกเหนือจากบทบาทพื้นฐานแล้ว ทั้งสามยังมีหน้าที่ที่แตกต่างกัน Robots.txt ระบุพฤติกรรมการรวบรวมข้อมูลสำหรับทั้งเว็บไซต์หรือไดเรกทอรี ในขณะที่ meta และ x-robots กำหนดพฤติกรรมการจัดทำดัชนีสำหรับแต่ละหน้า (หรือองค์ประกอบของหน้า)

อ่านเพิ่มเติม

แหล่งข้อมูลที่เป็นประโยชน์

  • Wikipedia: Robots Exclusion Protocol
  • เอกสารของ Google เกี่ยวกับ Robots.txt
  • เอกสารประกอบ Bing (และ Yahoo) บน Robots.txt
  • คำสั่งอธิบาย
  • เอกสาร Yandex บน Robots.txt
ไปที่เนื้อหา↑

ห่อ

เราหวังว่าคุณจะเข้าใจถึงความสำคัญของไฟล์ robot.txt และการมีส่วนร่วมของไฟล์ในแนวทางปฏิบัติ SEO โดยรวมและผลกำไรของเว็บไซต์ หากคุณยังคงประสบปัญหาในการหารายได้จากเว็บไซต์ของคุณ คุณไม่จำเป็นต้องเขียนโค้ดเพื่อเริ่มสร้างรายได้ด้วยโฆษณา Adsterra วางโค้ดโฆษณาบนเว็บไซต์ HTML, WordPress หรือ Blogger ของคุณแล้วเริ่มสร้างผลกำไรได้เลยวันนี้!

สร้างรายได้จากการจราจร