Como impedir que IAs rastreiem seu conteúdo

Publicados: 2023-10-24

Ferramentas geradoras de IA, como Google Bard e Bing Chat, são criadas a partir de muitas fontes de conteúdo, incluindo a web. Para consternação de muitos, os mecanismos de pesquisa têm treinado silenciosamente seus modelos de IA em todo o conteúdo que encontram enquanto rastreiam a pesquisa tradicional na web.

O Bing e o Google anunciaram agora métodos para bloquear o uso de conteúdo para treinamento de IA, enquanto permanecem indexados para pesquisa na web.

Então, você deveria bloquear as IAs e como fazer isso?

Você deve bloquear IAs?
Como você bloqueia bots de IA?
Como bloquear a IA do Bing
Como bloquear a IA do Google
Como bloquear ChatGPT
Teste

Você deve bloquear IAs?

As empresas que fabricam os seus próprios produtos podem considerar um benefício incluir o seu conteúdo em modelos de IA. Informações, como especificações técnicas ou suporte ao produto, podem ajudar nas vendas e reduzir os custos de suporte ao cliente.

Mas para muitos outros negócios online, o conteúdo é o seu produto. Existem preocupações válidas de que a energia investida na criação de conteúdos será utilizada para melhorar os produtos de IA propriedade das grandes empresas tecnológicas, sem agregar qualquer valor sob a forma de tráfego.

O Google e o Bing estão tentando encontrar maneiras de creditar as fontes e fornecer algum tráfego de referência, mas é provável que seja menor do que a pesquisa tradicional na web e mais provável que seja transacional do que consultas de pesquisa informativas.

É importante observar que o bloqueio de conteúdo dessas IAs não afetará o comportamento de rastreamento. O Google diz que 'o token do agente do usuário robots.txt é usado para fins de controle'. Seu site será rastreado normalmente pelos bots para construir seus índices de pesquisa.

E se os mecanismos de pesquisa já estiverem impedidos de rastrear determinadas páginas, você não precisa bloqueá-los especificamente para as IAs.

Como você bloqueia bots de IA?

Atualmente é possível bloquear Google, Bing e ChatGPT usando métodos familiares à maioria dos SEOs, o arquivo robots.txt e as diretivas de robôs no nível da página.

Google e ChatGPT optaram pelo método robots.txt que permite especificar padrões de URL, e o Bing optou por usar diretivas de robôs aplicadas a páginas individuais.

O robots.txt tem a vantagem de ser fácil de configurar para um site inteiro em um único lugar. É muito transparente quais URLs estão sendo bloqueados em comparação com as diretivas de robôs no nível da página, que devem ser testadas buscando cada página.

Como bloquear a IA do Bing

O Bing procura as diretivas de robôs nocache ou noarchive, que podem ser adicionadas a uma página como uma meta tag ou em um cabeçalho de resposta X-Robots-Tag.

O Nocache permitirá que páginas sejam incluídas nas respostas do Bing Chat usando apenas URLs, títulos e snippets no treinamento dos modelos de IA da Microsoft.

O Noarchive não permite a inclusão de páginas no Bing Chat e nenhum conteúdo será usado no treinamento dos modelos de IA da Microsoft.

Se uma página tiver Nocache e Noarchive, o Nocache menos restritivo terá precedência.

O token ' robôs ' aplicará a diretiva a todos os rastreadores. Isso inclui o Google, que impedirá que a página apareça com um link em cache nos resultados de pesquisa.

<meta name=”robôs” content=”noarchive”>

Você pode usar os tokens mais específicos ' bingbot ' ou ' msnbot ' para evitar afetar outros mecanismos de pesquisa.

<meta nome=”bingbot” content=”nocache”>

Como bloquear a IA do Google

O Google optou pelo método robots.txt, que permite especificar padrões de URL para corresponder às páginas que você não deseja que sejam usadas no Bard e em seu equivalente da API Vertex. Atualmente, não se aplica à Search Generative Experience (SGE).

Eles corresponderão a um token de agente de usuário estendido pelo Google. O caso do token não importa.

Agente do usuário: Google-Extended

Proibir: /

Se não houver um bloco de regras específico para o token estendido do Google, ele corresponderá ao token curinga (*).

Agente de usuário: *

Proibir: /

Tenha cuidado se você tiver um bloco de regras específico para o Googlebot e um bloco curinga separado. Estendido pelo Google corresponderá ao bloco curinga, não ao bloco do Googlebot.

Agente do usuário: Googlebot

Permitir: /

Agente de usuário: *

Proibir: /

Você pode listar vários agentes de usuário antes que a regra seja bloqueada para ser mais preciso.

Agente do usuário: Google-Extended

Agente do usuário: Googlebot

Permitir: /

Agente de usuário: *

Proibir: /

Como bloquear ChatGPT

ChatGPT também optou pelo método robots.txt.

O Chat GPT tem dois tokens de agente de usuário diferentes, ChatGPT-User para consultas em nome de usuários do ChatGPT e GPTBot, que é o rastreador da Web da OpenAI usado para construir seus modelos.

O sistema de opt-out atualmente trata ambos os agentes de usuário da mesma forma, portanto, qualquer proibição de robots.txt para um agente cobrirá ambos. Isso pode mudar no futuro, por isso recomendamos bloqueá-los separadamente.

Agente de usuário: GPTBot

Agente do usuário: ChatGPT-User

Proibir: /

Teste

O teste é simples se você estiver bloqueando todo o seu site.

Para verificar se o Google e o ChatGPT estão bloqueados, você precisa ver se o seu robots.txt tem uma regra de proibir tudo para os bots que você deseja bloquear.

Agente do usuário: Google-Extended

Agente do usuário: GPTbot

Proibir: /

Se você deseja bloquear apenas alguns URLs, pode ser necessário um conjunto mais complexo de diretivas robots.txt. Você pode considerar testar vários URLs que espera que sejam bloqueados e não bloqueados.

Tomo é nossa ferramenta gratuita de robots.txt que pode ajudá-lo a testar se URLs específicos estão bloqueados em robots.txt. Você pode definir testes na forma de uma lista de URLs e o status não permitido esperado para cada URL.

Ele pode ser configurado com os tokens de agente de usuário Google-Extended, GPTBot e ChatGPT-User para mostrar quais URLs estão bloqueados para cada um e se isso corresponde ao resultado de teste esperado.

Sempre que seu arquivo robots.txt for atualizado, os testes serão executados novamente e você será notificado se os resultados não corresponderem ao esperado.

Para testar se o Bing está bloqueado, você pode inspecionar os modelos de página principais no navegador e confirmar se ele possui a tag robots.

Se você estiver usando um cabeçalho de resposta X-Robots-Tag, ele poderá ser visto na guia de rede selecionando a página na lista de solicitações de rede e visualizando a guia ‘Cabeçalhos’.

O teste será mais complicado se você bloquear um conjunto específico de páginas, mas existem algumas ferramentas que podem ajudar.

O rastreador Lumar também reportará automaticamente todas as páginas onde as IAs do Google e do Bing estão bloqueadas.

Você precisa de suporte técnico adicional? Saiba mais sobre a oferta de tecnologia da Semetrical ou entre em contato para mais informações!