Cum să blochezi ca AI să acceseze cu crawlere conținutul tău

Publicat: 2023-10-24

Instrumentele generatoare de inteligență artificială, cum ar fi Google Bard și Bing Chat, sunt construite din multe surse de conținut, inclusiv web. Spre consternarea multora, motoarele de căutare și-au antrenat în liniște modelele AI cu privire la tot conținutul pe care îl găsesc în timp ce accesează cu crawlere pentru căutarea tradițională pe web.

Bing și Google au anunțat acum metode de blocare a utilizării conținutului pentru instruirea AI, rămânând în același timp indexate pentru căutarea pe web.

Deci, ar trebui să blocați AI-urile și cum procedați?

  • Ar trebui să blochezi AI?
  • Cum blochezi roboții AI?
  • Cum să blochezi AI-ul lui Bing
  • Cum să blochezi IA Google
  • Cum să blochezi ChatGPT
  • Testare

Ar trebui să blochezi AI?

Companiile care își produc propriile produse pot considera că este un avantaj să includă conținutul lor în modelele AI. Informațiile, cum ar fi specificațiile tehnice sau asistența pentru produse, pot ajuta la vânzări și la reducerea costurilor de asistență pentru clienți.

Dar pentru multe alte afaceri online, conținutul este produsul lor. Există îngrijorări valabile că energia investită în crearea de conținut va fi folosită pentru a îmbunătăți produsele AI deținute de marile companii de tehnologie, fără a oferi nicio valoare sub formă de trafic.

Google și Bing încearcă să găsească modalități de a credita sursele și de a furniza trafic de recomandare, dar este posibil să fie mai puțin decât căutarea tradițională pe web și mai probabil să fie tranzacțională decât interogările de căutare informaționale.

Este important să rețineți că blocarea conținutului din aceste AI nu va afecta comportamentul de accesare cu crawlere. Google spune că „jetonul user-agent robots.txt este folosit în calitate de control”. Site-ul dvs. va fi accesat cu crawlere normal de către roboți pentru a-și construi indecșii de căutare.

Și dacă motoarele de căutare sunt deja blocate să acceseze cu crawlere anumite pagini, nu trebuie să le blocați special pentru AI.

Cum blochezi roboții AI?

În prezent, este posibil să blocați Google, Bing și ChatGPT folosind metode familiare majorității SEO, fișierul robots.txt și directivele roboților la nivel de pagină.

Google și ChatGPT au optat pentru metoda robots.txt care vă permite să specificați modele URL, iar Bing a optat pentru utilizarea directivelor roboți aplicate paginilor individuale.

Robots.txt are avantajul de a fi ușor de configurat pentru un întreg site într-un singur loc. Este foarte transparent ce adrese URL sunt blocate în comparație cu directivele roboților la nivel de pagină, care trebuie testate prin preluarea fiecărei pagini.

Cum să blochezi AI-ul lui Bing

Bing caută directivele nocache sau noarchive robots, care pot fi adăugate la o pagină ca metaetichetă sau într-un antet de răspuns X-Robots-Tag.

Nocache va permite ca paginile să fie incluse în răspunsurile Bing Chat folosind numai adrese URL, titluri și fragmente în formarea modelelor AI Microsoft.

Noarchive nu permite ca pagini să fie incluse în Bing Chat și niciun conținut nu va fi folosit pentru antrenarea modelelor AI Microsoft.

Dacă o pagină are atât Nocache, cât și Noarchive, Nocache-ul mai puțin restrictiv va avea prioritate.

Indicatorul „ roboți ” va aplica directiva tuturor crawlerelor. Aceasta include Google, care va împiedica apariția paginii cu un link în cache în rezultatele căutării.

<meta name="roboți” conținut="noarchive”>

Puteți utiliza token-urile mai specifice „ bingbot ” sau „ msnbot ” pentru a evita afectarea altor motoare de căutare.

<meta name="bingbot” content="nocache”>

Cum să blochezi IA Google

Google a optat pentru metoda robots.txt care vă permite să specificați modele URL pentru a se potrivi cu paginile pe care nu doriți să le utilizați în Bard și echivalentul lor Vertex API. În prezent, nu se aplică experienței generative de căutare (SGE).

Acestea se vor potrivi cu un simbol user-agent al Google-extended. Nu contează cazul jetonului.

User-agent: Google-Extended

Nu permite: /

Dacă nu există un bloc de reguli specific pentru indicativul extins de Google, acesta se va potrivi cu indicativul wildcard (*).

Agent utilizator: *

Nu permite: /

Fiți atenți dacă aveți un anumit bloc de reguli pentru Googlebot și un bloc de wildcard separat. Google-extended se va potrivi cu blocul wildcard, nu cu blocul Googlebot.

Agent utilizator: Googlebot

Permite: /

Agent utilizator: *

Nu permite: /

Pentru a fi mai precis, puteți enumera mai mulți agenți de utilizator înainte de blocarea regulilor.

User-agent: Google-Extended

Agent utilizator: Googlebot

Permite: /

Agent utilizator: *

Nu permite: /

Cum să blochezi ChatGPT

ChatGPT a optat și pentru metoda robots.txt.

Chat GPT are două simboluri user-agent diferite, ChatGPT-User pentru interogări în numele utilizatorilor ChatGPT și GPTBot, care este crawler-ul web al OpenAI folosit pentru a-și construi modelele.

Sistemul de renunțare tratează în prezent ambii agenți de utilizator la fel, astfel încât orice robots.txt interzis pentru un agent îi va acoperi pe ambii. Acest lucru se poate schimba în viitor, așa că vă recomandăm să le blocați separat.

Agent utilizator: GPTBot

Agent utilizator: ChatGPT-Utilizator

Nu permite: /

Testare

Testarea este simplă dacă blocați întregul site.

Pentru a verifica dacă Google și ChatGPT sunt blocate, trebuie să vedeți dacă robots.txt-ul dvs. are o regulă de interzicere a tuturor pentru roboții pe care doriți să îi blocați.

User-agent: Google-Extended

Agent utilizator: GPTbot

Nu permite: /

Dacă doriți să blocați doar anumite adrese URL, este posibil să aveți nevoie de un set mai complex de directive robots.txt. Vă recomandăm să testați un număr de adrese URL care vă așteptați să fie blocate și nu.

Tomo este instrumentul nostru gratuit robots.txt care vă poate ajuta să testați dacă anumite adrese URL sunt blocate în robots.txt. Puteți defini teste sub forma unei liste de adrese URL și starea nepermisă așteptată pentru fiecare adresă URL.

Poate fi configurat cu simbolurile de agent de utilizator Google-Extended, GPTBot și ChatGPT-User pentru a vă arăta ce adrese URL sunt blocate pentru fiecare și dacă aceasta se potrivește cu rezultatul așteptat al testului.

Ori de câte ori fișierul dvs. robots.txt este actualizat, testele vor fi reluate și veți fi notificat dacă rezultatele nu se potrivesc cu cele așteptate.

Pentru a testa dacă Bing este blocat, puteți inspecta șabloanele de pagini cheie în browser și puteți confirma că are eticheta robots.

Dacă utilizați un antet de răspuns X-Robots-Tag, acesta poate fi văzut în fila de rețea selectând pagina din lista de solicitări de rețea și vizualizând fila „Headers”.

Testarea va fi mai complicată dacă blocați un anumit set de pagini, dar există câteva instrumente care vă pot ajuta.

De asemenea, crawler-ul Lumar va raporta automat toate paginile în care sunt blocate AI-urile Google și Bing.

Aveți nevoie de suport tehnic suplimentar? Aflați mai multe despre oferta de tehnologie a Semetrical sau contactați-vă pentru mai multe informații!