Cara Memblokir AI Agar Tidak Merangkak Konten Anda
Diterbitkan: 2023-10-24Alat generatif AI, seperti Google Bard dan Bing Chat, dibuat dari banyak sumber konten termasuk web. Yang membuat banyak orang khawatir, mesin pencari diam-diam melatih model AI mereka pada semua konten yang mereka temukan sambil melakukan crawling pada pencarian web tradisional.
Bing dan Google kini telah mengumumkan metode untuk memblokir konten agar tidak digunakan untuk pelatihan AI sambil tetap diindeks untuk pencarian web.
Jadi, haruskah Anda memblokir AI, dan bagaimana cara melakukannya?
- Haruskah Anda memblokir AI?
- Bagaimana cara memblokir bot AI?
- Cara memblokir AI Bing
- Cara memblokir AI Google
- Bagaimana cara memblokir ChatGPT
- Pengujian
Haruskah Anda memblokir AI?
Perusahaan yang membuat produknya sendiri mungkin menganggap memasukkan konten mereka ke dalam model AI merupakan suatu keuntungan. Informasi, seperti spesifikasi teknis atau dukungan produk, dapat membantu penjualan dan mengurangi biaya dukungan pelanggan.
Namun bagi banyak bisnis online lainnya, konten adalah produk mereka. Ada kekhawatiran yang sah bahwa energi yang diinvestasikan dalam pembuatan konten akan digunakan untuk meningkatkan produk AI yang dimiliki oleh perusahaan teknologi besar tanpa memberikan nilai apa pun dalam bentuk lalu lintas.
Google dan Bing mencoba mencari cara untuk memberi kredit pada sumber dan memberikan lalu lintas rujukan, namun kemungkinan besar jumlah tersebut lebih sedikit dibandingkan penelusuran web tradisional, dan lebih cenderung bersifat transaksional dibandingkan kueri penelusuran informasional.
Penting untuk diperhatikan bahwa memblokir konten dari AI ini tidak akan memengaruhi perilaku perayapan. Google mengatakan 'token agen pengguna robots.txt digunakan dalam kapasitas kontrol.' Situs Anda akan dirayapi seperti biasa oleh bot untuk membangun indeks pencarian mereka.
Dan jika mesin pencari sudah diblokir untuk merayapi halaman tertentu, Anda tidak perlu memblokirnya khusus untuk AI.
Bagaimana cara memblokir bot AI?
Saat ini dimungkinkan untuk memblokir Google, Bing, dan ChatGPT menggunakan metode yang familiar bagi sebagian besar SEO, file robots.txt, dan arahan robot tingkat halaman.
Google dan ChatGPT telah memilih metode robots.txt yang memungkinkan Anda menentukan pola URL, dan Bing telah memilih untuk menggunakan arahan robots yang diterapkan pada halaman individual.
Keuntungan robots.txt adalah mudah dikonfigurasi untuk seluruh situs web di satu tempat. Sangat transparan URL mana yang diblokir dibandingkan dengan arahan robot tingkat halaman, yang harus diuji dengan mengambil setiap halaman.
Cara memblokir AI Bing
Bing mencari arahan robot nocache atau noarchive, yang dapat ditambahkan ke halaman sebagai tag meta atau di header respons X-Robots-Tag.
Nocache akan mengizinkan halaman disertakan dalam jawaban Bing Chat hanya dengan menggunakan URL, Judul, dan Cuplikan dalam pelatihan model AI Microsoft.
Noarchive tidak mengizinkan halaman disertakan dalam Bing Chat, dan tidak ada konten yang akan digunakan untuk melatih model AI Microsoft.
Jika suatu halaman memiliki Nocache dan Noarchive, Nocache yang tidak terlalu ketat akan diutamakan.
Token ' robots ' akan menerapkan arahan ke semua crawler. Ini termasuk Google yang akan mencegah halaman tersebut muncul dengan link cache di hasil pencarian.
<meta name=”robot” content=”noarchive”>
Anda dapat menggunakan token ' bingbot ' atau ' msnbot ' yang lebih spesifik agar tidak memengaruhi mesin pencari lainnya.
<meta name=”bingbot” content=”nocache”>
Cara memblokir AI Google
Google telah memilih metode robots.txt yang memungkinkan Anda menentukan pola URL untuk mencocokkan halaman yang tidak ingin Anda gunakan di Bard dan setara dengan Vertex API. Saat ini hal ini tidak berlaku untuk Search Generative Experience (SGE).
Mereka akan dicocokkan dengan token agen pengguna yang diperluas oleh Google. Kasus token tidak menjadi masalah.
Agen pengguna: Google-Extend
Larang: /
Jika tidak ada blok aturan khusus untuk token yang diperluas Google, maka blok tersebut akan cocok dengan token wildcard (*).
Agen pengguna: *
Larang: /
Hati-hati jika Anda memiliki blok aturan khusus untuk Googlebot, dan blok karakter pengganti terpisah. Google-extend akan cocok dengan blok wildcard, bukan blok Googlebot.
Agen pengguna: Googlebot
Mengizinkan: /
Agen pengguna: *
Larang: /
Anda dapat membuat daftar beberapa agen pengguna sebelum aturan diblokir agar lebih tepat.
Agen pengguna: Google-Extend
Agen pengguna: Googlebot
Mengizinkan: /
Agen pengguna: *
Larang: /
Bagaimana cara memblokir ChatGPT
ChatGPT juga memilih metode robots.txt.
Chat GPT memiliki dua token agen pengguna yang berbeda, ChatGPT-User untuk kueri atas nama pengguna ChatGPT, dan GPTBot, yang merupakan perayap web OpenAI yang digunakan untuk membuat model mereka.
Sistem penyisihan saat ini memperlakukan kedua agen pengguna dengan cara yang sama, sehingga larangan robots.txt untuk satu agen akan mencakup keduanya. Hal ini mungkin berubah di masa mendatang, jadi sebaiknya blokir secara terpisah.
Agen pengguna: GPTBot
Agen-pengguna: ChatGPT-Pengguna
Larang: /
Pengujian
Pengujiannya sederhana jika Anda memblokir seluruh situs web Anda.
Untuk memeriksa apakah Google dan ChatGPT diblokir, Anda perlu melihat apakah robots.txt Anda memiliki aturan larangan segalanya untuk bot yang ingin Anda blokir.
Agen pengguna: Google-Extend
Agen pengguna: GPTbot
Larang: /
Jika Anda hanya ingin memblokir beberapa URL, mungkin diperlukan serangkaian perintah robots.txt yang lebih kompleks. Anda dapat mempertimbangkan untuk menguji sejumlah URL yang Anda perkirakan akan diblokir dan tidak diblokir.
Tomo adalah alat robots.txt gratis kami yang dapat membantu Anda menguji apakah URL tertentu diblokir di robots.txt. Anda dapat menentukan pengujian dalam bentuk daftar URL, dan status tidak diizinkan yang diharapkan untuk setiap URL.
Ini dapat dikonfigurasi dengan token agen pengguna Google-Extend, GPTBot, dan ChatGPT-User untuk menunjukkan kepada Anda URL mana yang diblokir untuk masing-masing URL, dan apakah URL tersebut cocok dengan hasil pengujian yang diharapkan.
Setiap kali file robots.txt Anda diperbarui, pengujian akan dijalankan kembali dan Anda akan diberi tahu jika hasilnya tidak sesuai dengan yang diharapkan.
Untuk menguji apakah Bing diblokir, Anda dapat memeriksa templat halaman utama Anda di browser dan mengonfirmasi bahwa halaman tersebut memiliki tag robots.
Jika Anda menggunakan header respons X-Robots-Tag, ini dapat dilihat di tab jaringan dengan memilih halaman di daftar permintaan jaringan dan melihat tab 'Header'.
Pengujian akan lebih rumit jika Anda memblokir sekumpulan halaman tertentu, namun ada beberapa alat yang dapat membantu.
Perayap Lumar sekarang juga akan secara otomatis melaporkan semua halaman di mana AI Google dan Bing diblokir.
Apakah Anda memerlukan dukungan teknis tambahan? Pelajari lebih lanjut tentang penawaran teknologi Semetrical atau hubungi kami untuk informasi lebih lanjut!