Как запретить ИИ сканировать ваш контент

Опубликовано: 2023-10-24

Инструменты генерации искусственного интеллекта, такие как Google Bard и Bing Chat, создаются на основе многих источников контента, включая Интернет. К ужасу многих, поисковые системы незаметно обучают свои модели искусственного интеллекта всему контенту, который они находят при сканировании традиционного веб-поиска.

Bing и Google объявили о методах блокировки использования контента для обучения ИИ, сохраняя при этом его индексацию для веб-поиска.

Итак, стоит ли блокировать ИИ и как это сделать?

Стоит ли блокировать ИИ?
Как заблокировать ботов с искусственным интеллектом?
Как заблокировать ИИ Bing
Как заблокировать ИИ Google
Как заблокировать ChatGPT
Тестирование

Стоит ли блокировать ИИ?

Компании, производящие собственные продукты, могут счесть выгодным включение своего контента в модели искусственного интеллекта. Информация, такая как технические характеристики или поддержка продукта, может помочь в продажах и снижении затрат на поддержку клиентов.

Но для многих других онлайн-бизнесов контент является их продуктом. Существуют обоснованные опасения, что энергия, вложенная в создание контента, будет использована для улучшения продуктов искусственного интеллекта, принадлежащих крупным технологическим компаниям, не принося никакой пользы в виде трафика.

Google и Bing пытаются найти способы указать источники и обеспечить некоторый реферальный трафик, но он, вероятно, будет меньше, чем традиционный веб-поиск, и, скорее всего, будет транзакционным, а не информационным поисковым запросом.

Важно отметить, что блокировка контента от этих ИИ не повлияет на поведение сканирования. Google сообщает, что «токен пользовательского агента robots.txt используется для контроля». Ваш сайт будет сканироваться ботами в обычном режиме для построения поисковых индексов.

И если поисковым системам уже запрещено сканирование определенных страниц, вам не нужно блокировать их специально для ИИ.

Как заблокировать ботов с искусственным интеллектом?

В настоящее время можно заблокировать Google, Bing и ChatGPT, используя методы, знакомые большинству специалистов по поисковой оптимизации: файл robots.txt и директивы robots на уровне страницы.

Google и ChatGPT выбрали метод robots.txt, который позволяет указывать шаблоны URL-адресов, а Bing выбрал использование директив robots, применяемых к отдельным страницам.

Преимущество файла robots.txt заключается в том, что его легко настроить для всего веб-сайта в одном месте. Очень ясно, какие URL-адреса блокируются, по сравнению с директивами роботов на уровне страницы, которые необходимо проверять, загружая каждую страницу.

Как заблокировать ИИ Bing

Bing ищет директивы роботов nocache или noarchive, которые можно добавить на страницу в виде метатега или в заголовке ответа X-Robots-Tag.

Nocache позволит включать страницы в ответы Bing Chat, используя только URL-адреса, заголовки и фрагменты при обучении моделей искусственного интеллекта Microsoft.

Noarchive не позволяет включать страницы в Bing Chat, и никакой контент не будет использоваться для обучения моделей искусственного интеллекта Microsoft.

Если на странице есть и Nocache, и Noarchive, то менее строгий Nocache будет иметь приоритет.

Токен robots применит директиву ко всем сканерам. Сюда входит Google, который предотвратит появление страницы с кэшированной ссылкой в результатах поиска.

<meta name="robots" content="noarchive">

Вы можете использовать более конкретные токены « bingbot » или « msnbot », чтобы не влиять на другие поисковые системы.

<meta name="bingbot" content="nocache">

Как заблокировать ИИ Google

Google выбрал метод robots.txt, который позволяет вам указывать шаблоны URL-адресов для соответствия страницам, которые вы не хотите использовать в Bard и его эквиваленте Vertex API. В настоящее время это не применимо к Search Generative Experience (SGE).

Они будут сопоставляться с токеном пользовательского агента, расширенным Google. Регистр токена не имеет значения.

Пользовательский агент: Google-Extended

Запретить: /

Если нет блока правил специально для расширенного Google токена, он будет соответствовать подстановочному токену (*).

Пользовательский агент: *

Запретить: /

Будьте осторожны, если у вас есть отдельный блок правил для робота Googlebot и отдельный блок с подстановочными знаками. Расширение Google будет соответствовать блоку с подстановочными знаками, а не блоку Googlebot.

Пользовательский агент: Googlebot

Позволять: /

Пользовательский агент: *

Запретить: /

Чтобы быть более точным, вы можете указать несколько пользовательских агентов перед блокировкой правила.

Пользовательский агент: Google-Extended

Пользовательский агент: Googlebot

Позволять: /

Пользовательский агент: *

Запретить: /

Как заблокировать ChatGPT

ChatGPT также выбрал метод robots.txt.

Chat GPT имеет два разных токена пользовательского агента: ChatGPT-User для запросов от имени пользователей ChatGPT и GPTBot — веб-сканер OpenAI, используемый для построения их моделей.

Система отказа в настоящее время обрабатывает оба пользовательских агента одинаково, поэтому любой запрет в файле robots.txt для одного агента будет распространяться на обоих. В будущем ситуация может измениться, поэтому мы рекомендуем блокировать их отдельно.

Пользовательский агент: GPTBot

Пользовательский агент: ChatGPT-Пользователь

Запретить: /

Тестирование

Тестирование простое, если вы блокируете весь свой сайт.

Чтобы проверить, заблокированы ли Google и ChatGPT, вам нужно посмотреть, есть ли в вашем файле robots.txt правило запрета всего для ботов, которых вы хотите заблокировать.

Пользовательский агент: Google-Extended

Пользовательский агент: GPTbot

Запретить: /

Если вы хотите заблокировать только некоторые URL-адреса, может потребоваться более сложный набор директив robots.txt. Вы можете рассмотреть возможность тестирования нескольких URL-адресов, которые, как вы ожидаете, будут заблокированы или не заблокированы.

Tomo — это наш бесплатный инструмент robots.txt, который поможет вам проверить, заблокированы ли определенные URL-адреса в robots.txt. Вы можете определить тесты в виде списка URL-адресов и ожидаемого запрещенного статуса для каждого URL-адреса.

Его можно настроить с помощью токенов пользовательского агента Google-Extended, GPTBot и ChatGPT-User, чтобы показать вам, какие URL-адреса заблокированы для каждого и соответствует ли это ожидаемому результату теста.

При каждом обновлении файла robots.txt тесты будут запускаться повторно, и вы получите уведомление, если результаты не будут соответствовать ожидаемым.

Чтобы проверить, заблокирован ли Bing, вы можете проверить шаблоны ключевых страниц в браузере и убедиться, что на них есть тег robots.

Если вы используете заголовок ответа X-Robots-Tag, его можно увидеть на вкладке сети, выбрав страницу в списке сетевых запросов и просмотрев вкладку «Заголовки».

Тестирование будет сложнее, если вы блокируете определенный набор страниц, но есть несколько инструментов, которые могут помочь.

Сканер Lumar теперь также будет автоматически сообщать обо всех страницах, на которых заблокированы ИИ Google и Bing.

Вам нужна дополнительная техническая поддержка? Узнайте больше о технологических предложениях Semetrical или свяжитесь с нами для получения дополнительной информации!