Was ist Robots.txt in SEO: Wie man es erstellt und optimiert

Veröffentlicht: 2022-04-22

Das heutige Thema steht nicht in direktem Zusammenhang mit der Traffic-Monetarisierung. Die robots.txt-Datei kann sich jedoch auf die SEO Ihrer Website und schließlich auf die Menge des erhaltenen Datenverkehrs auswirken. Viele Web-Admins haben das Ranking ihrer Websites durch verpfuschte robots.txt-Einträge ruiniert. Dieser Leitfaden hilft Ihnen, all diese Fallstricke zu vermeiden. Unbedingt bis zum Ende lesen!

Inhalt

Was ist eine robots.txt-Datei?
Wie sieht eine robots.txt-Datei aus?
So finden Sie Ihre robots.txt-Datei
Wie funktioniert eine Robots.txt-Datei?
Robots.txt-Syntax
Unterstützte Direktiven
User-Agent*
Erlauben
Nicht zulassen
Seitenverzeichnis
Nicht unterstützte Anweisungen
Crawl-Verzögerung
Kein Index
Nicht folgen
Benötigen Sie eine robots.txt-Datei?
Erstellen einer robots.txt-Datei
Robots.txt-Datei: Best Practices für SEO
Verwenden Sie für jede Anweisung eine neue Zeile
Verwenden Sie Platzhalter, um Anweisungen zu vereinfachen
Verwenden Sie das Dollarzeichen „$“, um das Ende einer URL anzugeben
Verwenden Sie jeden User-Agent nur einmal
Verwenden Sie spezifische Anweisungen, um unbeabsichtigte Fehler zu vermeiden
Geben Sie Kommentare mit einem Hash in die robots.txt-Datei ein
Verwenden Sie für jede Subdomain unterschiedliche robots.txt-Dateien
Blockieren Sie keine guten Inhalte
Überbeanspruchen Sie die Crawl-Verzögerung nicht
Achten Sie auf Groß- und Kleinschreibung
Weitere Best Practices:
Verwenden von robots.txt zum Verhindern der Indexierung von Inhalten
Verwendung von robots.txt zum Schutz privater Inhalte
Verwendung von robots.txt zum Verstecken bösartiger doppelter Inhalte
All-Access für alle Bots
Kein Zugriff für alle Bots
Blockieren Sie ein Unterverzeichnis für alle Bots
Ein Unterverzeichnis für alle Bots sperren (mit einer erlaubten Datei)
Blockieren Sie eine Datei für alle Bots
Blockieren Sie einen Dateityp (PDF) für alle Bots
Blockieren Sie alle parametrisierten URLs nur für den Googlebot
So testen Sie Ihre robots.txt-Datei auf Fehler
Eingesendete URL durch robots.txt blockiert
Blockiert durch robots.txt
Indiziert, obwohl von robots.txt blockiert
Robots.txt vs. Meta-Roboter vs. X-Roboter
Weiterlesen
Einpacken

Was ist eine robots.txt-Datei?

Die robots.txt oder Robot Exclusion Protocol ist eine Reihe von Webstandards, die steuern, wie Suchmaschinen-Robots jede Webseite durchsuchen, bis hin zu den Schema-Markups auf dieser Seite. Es handelt sich um eine Standard-Textdatei, die sogar verhindern kann, dass Webcrawler Zugriff auf Ihre gesamte Website oder Teile davon erhalten.

Während Sie SEO anpassen und technische Probleme lösen, können Sie damit beginnen, passives Einkommen aus Anzeigen zu erzielen. Eine einzige Codezeile auf Ihrer Website gibt regelmäßige Auszahlungen zurück!

VERDIENEN SIE MIT ANZEIGEN

Zum Inhaltsverzeichnis ↑

Wie sieht eine robots.txt-Datei aus?

Die Syntax ist einfach: Sie geben Bots Regeln, indem Sie ihren Benutzeragenten und ihre Anweisungen angeben. Die Datei hat folgendes Grundformat:

Sitemap: [URL-Speicherort der Sitemap]

User-Agent: [Bot-ID]

[Richtlinie 1]

[Richtlinie 2]

[Richtlinie …]

User-Agent: [eine andere Bot-Kennung]

[Richtlinie 1]

[Richtlinie 2]

[Richtlinie …]

So finden Sie Ihre robots.txt-Datei

Wenn Ihre Website bereits über eine robot.txt-Datei verfügt, können Sie sie finden, indem Sie in Ihrem Browser zu dieser URL gehen: https://yourdomainname.com/robots.txt . Hier ist zum Beispiel unsere Datei

Zum Inhaltsverzeichnis ↑

Wie funktioniert eine Robots.txt-Datei?

Eine robots.txt-Datei ist eine einfache Textdatei, die keinen HTML-Markup-Code enthält (daher die Erweiterung .txt). Diese Datei wird, wie alle anderen Dateien auf der Website, auf dem Webserver gespeichert. Es ist unwahrscheinlich, dass Benutzer diese Seite besuchen, da sie mit keiner Ihrer Seiten verlinkt ist, aber die meisten Web-Crawler-Bots suchen danach, bevor sie die gesamte Website durchsuchen.

Eine robots.txt-Datei kann Bots Anweisungen geben, diese Anweisungen jedoch nicht erzwingen. Ein guter Bot, z. B. ein Webcrawler oder ein Newsfeed-Bot, prüft die Datei und befolgt die Anweisungen, bevor er eine Domain-Seite besucht. Aber böswillige Bots werden die Datei entweder ignorieren oder verarbeiten, um verbotene Webseiten zu finden.

In einer Situation, in der eine robots.txt-Datei widersprüchliche Befehle enthält, verwendet der Bot die spezifischsten Anweisungen.

Zum Inhaltsverzeichnis ↑

Robots.txt-Syntax

Eine robots.txt-Datei besteht aus mehreren Abschnitten von „Anweisungen“, die jeweils mit einem Benutzeragenten beginnen. Der User-Agent gibt den Crawl-Bot an, mit dem der Code kommuniziert. Sie können entweder alle Suchmaschinen auf einmal ansprechen oder einzelne Suchmaschinen verwalten.

Immer wenn ein Bot eine Website durchsucht, wirkt er auf die Teile der Website ein, die ihn aufrufen.

User-Agent: *

Nicht zulassen: /

User-Agent: Googlebot

Nicht zulassen:

Benutzeragent: Bingbot

Nicht zulassen: /not-for-bing/

Unterstützte Direktiven

Direktiven sind Richtlinien, die die von Ihnen deklarierten Benutzeragenten befolgen sollen. Google unterstützt derzeit die folgenden Richtlinien.

User-Agent*

Wenn ein Programm eine Verbindung zu einem Webserver (einem Roboter oder einem normalen Webbrowser) herstellt, sendet es einen HTTP-Header namens „User-Agent“, der grundlegende Informationen über seine Identität enthält. Jede Suchmaschine hat einen User-Agent. Die Roboter von Google sind als Googlebot bekannt, die von Yahoo – als Slurp und die von Bing – als BingBot. Der Benutzeragent initiiert eine Folge von Anweisungen, die für bestimmte Benutzeragenten oder alle Benutzeragenten gelten können.

Erlauben

Die Allow-Direktive weist Suchmaschinen an, eine Seite oder ein Unterverzeichnis zu crawlen, sogar ein eingeschränktes Verzeichnis. Wenn Sie beispielsweise möchten, dass Suchmaschinen nicht auf alle Posts Ihres Blogs bis auf einen zugreifen können, könnte Ihre robots.txt-Datei so aussehen:

User-Agent: *

Nicht zulassen: /blog

Erlauben: /blog/allowed-post

Suchmaschinen können jedoch auf /blog/allowed-post zugreifen, aber sie können keinen Zugriff erhalten auf:

/blog/anderer-beitrag

/blog/noch-ein-anderer-beitrag

/blog/download-me.pd

Nicht zulassen

Die Disallow-Anweisung (die der robots.txt-Datei einer Website hinzugefügt wird) weist Suchmaschinen an, eine bestimmte Seite nicht zu crawlen. In den meisten Fällen verhindert dies auch, dass eine Seite in den Suchergebnissen erscheint.

Sie können diese Anweisung verwenden, um Suchmaschinen anzuweisen, Dateien und Seiten in einem bestimmten Ordner, den Sie vor der Öffentlichkeit verbergen, nicht zu crawlen. Zum Beispiel Inhalte, an denen Sie noch arbeiten, aber versehentlich veröffentlicht wurden. Ihre robots.txt-Datei könnte so aussehen, wenn Sie verhindern möchten, dass alle Suchmaschinen auf Ihr Blog zugreifen:

User-Agent: *

Nicht zulassen: /blog

Das bedeutet, dass auch alle Unterverzeichnisse des /blog-Verzeichnisses nicht gecrawlt werden. Dies würde Google auch daran hindern, auf URLs zuzugreifen, die /blog enthalten.

Zum Inhaltsverzeichnis ↑

Seitenverzeichnis

Sitemaps sind eine Liste von Seiten, die von Suchmaschinen gecrawlt und indexiert werden sollen. Wenn Sie die Sitemap-Direktive verwenden, kennen Suchmaschinen den Speicherort Ihrer XML-Sitemap. Die beste Option besteht darin, sie an die Webmaster-Tools der Suchmaschinen zu senden, da jedes wertvolle Informationen über Ihre Website für Besucher bereitstellen kann.

Es ist wichtig zu beachten, dass das Wiederholen der Sitemap-Anweisung für jeden Benutzeragenten unnötig ist und nicht für einen Suchagenten gilt. Fügen Sie Ihre Sitemap-Anweisungen am Anfang oder Ende Ihrer robots.txt-Datei hinzu.

Ein Beispiel für eine Sitemap-Direktive in der Datei:

Sitemap: https://www.domain.com/sitemap.xml

User-Agent: Googlebot

Nicht zulassen: /blog/

Erlauben: /blog/post-title/

Benutzeragent: Bingbot

Nicht zulassen: /services/

Zum Inhaltsverzeichnis ↑

Nicht unterstützte Anweisungen

Die folgenden Richtlinien werden von Google nicht mehr unterstützt – einige davon wurden technisch nie unterstützt.

Crawl-Verzögerung

Yahoo, Bing und Yandex reagieren schnell auf die Indexierung von Websites und reagieren auf die Crawl-Delay-Direktive, die sie für eine Weile in Schach hält.

Wenden Sie diese Zeile auf Ihren Block an:

Benutzeragent: Bingbot

Kriechverzögerung: 10

Das bedeutet, dass die Suchmaschinen zehn Sekunden warten können, bevor sie die Website crawlen, oder zehn Sekunden, bevor sie nach dem Crawlen erneut auf die Website zugreifen, was dasselbe ist, aber je nach verwendetem User-Agent leicht unterschiedlich ist.

Kein Index

Das noindex-Meta-Tag ist eine großartige Möglichkeit, Suchmaschinen daran zu hindern, eine Ihrer Seiten zu indizieren. Das Tag ermöglicht Bots den Zugriff auf die Webseiten, weist Roboter aber auch an, sie nicht zu indizieren.

HTTP-Antwortheader mit noindex-Tag. Sie können dieses Tag auf zwei Arten implementieren: einen HTTP-Antwort-Header mit einem X-Robots-Tag oder ein <meta>-Tag innerhalb des <head>-Abschnitts. So sollte Ihr <meta>-Tag aussehen:

404 & 410 HTTP-Statuscode. Die Statuscodes 404 und 410 zeigen an, dass eine Seite nicht mehr verfügbar ist. Nach dem Crawlen und Verarbeiten von 404/410-Seiten werden sie automatisch aus dem Google-Index entfernt. Um das Risiko von 404- und 410-Fehlerseiten zu verringern, crawlen Sie Ihre Website regelmäßig und verwenden Sie 301-Weiterleitungen, um den Datenverkehr bei Bedarf auf eine vorhandene Seite zu leiten.

Zum Inhaltsverzeichnis ↑

Nicht folgen

Nofollow weist Suchmaschinen an, Links auf Seiten und Dateien unter einem bestimmten Pfad nicht zu folgen. Seit dem 1. März 2020 betrachtet Google nofollow-Attribute nicht mehr als Anweisungen. Stattdessen handelt es sich um Hinweise, ähnlich wie bei kanonischen Tags. Wenn Sie ein „nofollow“-Attribut für alle Links auf einer Seite wünschen, verwenden Sie das Meta-Tag des Robots, den x-robots-Header oder das rel= „nofollow“ -Link-Attribut.

Bisher konnten Sie die folgende Anweisung verwenden, um Google daran zu hindern, allen Links in Ihrem Blog zu folgen:

User-Agent: Googlebot

Nicht folgen: /blog/

Benötigen Sie eine robots.txt-Datei?

Viele weniger komplexe Websites benötigen keine. Obwohl Google Webseiten, die durch die robots.txt-Datei blockiert werden, normalerweise nicht indiziert, kann nicht garantiert werden, dass diese Seiten nicht in den Suchergebnissen erscheinen. Mit dieser Datei haben Sie mehr Kontrolle und Sicherheit über den Inhalt Ihrer Website gegenüber Suchmaschinen.

Robots-Dateien helfen Ihnen auch dabei, Folgendes zu erreichen:

Verhindern Sie, dass doppelte Inhalte gecrawlt werden.
Bewahren Sie die Privatsphäre für verschiedene Website-Bereiche.
Beschränken Sie das Crawlen von internen Suchergebnissen.
Serverüberlastung verhindern.
Vermeiden Sie „Crawl-Budget“-Verschwendung.
Halten Sie Bilder, Videos und Ressourcendateien aus den Google-Suchergebnissen fern.

Diese Maßnahmen wirken sich letztendlich auf Ihre SEO-Taktik aus. Zum Beispiel verwirrt doppelter Inhalt Suchmaschinen und zwingt sie, zu entscheiden, welche von zwei Seiten zuerst gerankt werden soll. Unabhängig davon, wer den Inhalt erstellt hat, darf Google die Originalseite nicht für die Top-Suchergebnisse auswählen.

In Fällen, in denen Google doppelte Inhalte erkennt, die darauf abzielen, Benutzer zu täuschen oder Rankings zu manipulieren, passen sie die Indexierung und das Ranking Ihrer Website an. Infolgedessen kann das Ranking Ihrer Website darunter leiden oder vollständig aus dem Google-Index entfernt werden und aus den Suchergebnissen verschwinden.

Die Wahrung der Privatsphäre für verschiedene Website-Bereiche verbessert auch die Sicherheit Ihrer Website und schützt sie vor Hackern. Langfristig machen diese Maßnahmen Ihre Website sicherer, vertrauenswürdiger und rentabler.

Sind Sie ein Website-Besitzer, der vom Traffic profitieren möchte? Mit Adsterra erhalten Sie passives Einkommen von jeder Website!

MITGLIED WERDEN UND VERDIENEN

Zum Inhaltsverzeichnis ↑

Erstellen einer robots.txt-Datei

Sie benötigen einen Texteditor wie Notepad.

Erstellen Sie ein neues Blatt, speichern Sie die leere Seite als „robots.txt“ und beginnen Sie mit der Eingabe von Anweisungen in das leere .txt-Dokument.
Melden Sie sich bei Ihrem cPanel an, navigieren Sie zum Stammverzeichnis der Website und suchen Sie nach dem Ordner public_html .
Ziehen Sie Ihre Datei in diesen Ordner und überprüfen Sie dann, ob die Berechtigung der Datei richtig eingestellt ist.

Sie können die Datei als Eigentümer schreiben, lesen und bearbeiten, aber Dritte sind nicht zugelassen. In der Datei sollte ein Berechtigungscode „0644“ erscheinen. Wenn nicht, klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie „Dateiberechtigung“.

Robots.txt-Datei: Best Practices für SEO

Verwenden Sie für jede Anweisung eine neue Zeile

Sie müssen jede Direktive in einer separaten Zeile deklarieren. Sonst werden Suchmaschinen verwirrt.

User-Agent: *

Nicht zulassen: /Verzeichnis/

Nicht zulassen: /anderes-verzeichnis/

Verwenden Sie Platzhalter, um Anweisungen zu vereinfachen

Sie können Platzhalter (*) für alle Benutzeragenten verwenden und URL-Muster abgleichen, wenn Sie Anweisungen deklarieren. Platzhalter eignen sich gut für URLs mit einem einheitlichen Muster. Beispielsweise möchten Sie möglicherweise verhindern, dass alle Filterseiten mit einem Fragezeichen (?) in ihren URLs gecrawlt werden.

User-Agent: *

Nicht zulassen: /*?

Verwenden Sie das Dollarzeichen „$“, um das Ende einer URL anzugeben

Suchmaschinen können nicht auf URLs zugreifen, die auf Erweiterungen wie .pdf enden. Das bedeutet, dass sie nicht auf /file.pdf zugreifen können, aber sie können auf /file.pdf?id=68937586 zugreifen, das nicht auf „.pdf“ endet. Wenn Sie beispielsweise verhindern möchten, dass Suchmaschinen auf alle PDF-Dateien auf Ihrer Website zugreifen, könnte Ihre robots.txt-Datei so aussehen:

User-Agent: *

Nicht zulassen: /*.pdf$

Verwenden Sie jeden User-Agent nur einmal

Bei Google spielt es keine Rolle, ob Sie denselben User-Agent mehr als einmal verwenden. Es wird einfach alle Regeln aus den verschiedenen Erklärungen in einer einzigen Richtlinie zusammenfassen und ihr folgen. Es ist jedoch sinnvoll, jeden Benutzeragenten nur einmal zu deklarieren, da dies weniger verwirrend ist.

Wenn Sie Ihre Anweisungen sauber und einfach halten, verringert sich das Risiko kritischer Fehler. Zum Beispiel, wenn Ihre robots.txt-Datei die folgenden Benutzeragenten und Anweisungen enthält.

User-Agent: Googlebot

Nicht zulassen: /a/

User-Agent: Googlebot

Nicht zulassen: /b/

Verwenden Sie spezifische Anweisungen, um unbeabsichtigte Fehler zu vermeiden

Wenn Sie Anweisungen festlegen, kann das Fehlen spezifischer Anweisungen zu Fehlern führen, die Ihrer SEO schaden können. Angenommen, Sie haben eine mehrsprachige Site und arbeiten an einer deutschen Version für das Unterverzeichnis /de/.

Sie möchten nicht, dass Suchmaschinen darauf zugreifen können, da es noch nicht fertig ist. Die folgende robots.txt-Datei hindert Suchmaschinen daran, diesen Unterordner und seinen Inhalt zu indizieren:

User-Agent: *

Verbieten: /de

Es wird jedoch Suchmaschinen daran hindern, Seiten oder Dateien zu crawlen, die mit /de beginnen. In diesem Fall ist das Hinzufügen eines abschließenden Schrägstrichs die einfache Lösung.

User-Agent: *

Verbieten: /de/

Zum Inhaltsverzeichnis ↑

Geben Sie Kommentare mit einem Hash in die robots.txt-Datei ein

Kommentare helfen Entwicklern und möglicherweise sogar Ihnen, Ihre robots.txt-Datei zu verstehen. Beginnen Sie die Zeile mit einem Hash (#), um einen Kommentar einzufügen. Crawler ignorieren Zeilen, die mit einem Hash beginnen.

# Dies weist den Bing-Bot an, unsere Website nicht zu crawlen.

Benutzeragent: Bingbot

Nicht zulassen: /

Verwenden Sie für jede Subdomain unterschiedliche robots.txt-Dateien

Robots.txt wirkt sich nur auf das Crawlen auf seiner Host-Domain aus. Sie benötigen eine weitere Datei, um das Crawlen auf eine andere Subdomain einzuschränken. Wenn Sie beispielsweise Ihre Haupt-Website auf example.com und Ihr Blog auf blog.example.com hosten, benötigen Sie zwei robots.txt-Dateien. Platzieren Sie eine im Stammverzeichnis der Hauptdomäne, während die andere Datei im Stammverzeichnis des Blogs liegen sollte.

Blockieren Sie keine guten Inhalte

Verwenden Sie keine robots.txt-Datei oder ein noindex-Tag, um hochwertige Inhalte zu blockieren, die Sie veröffentlichen möchten, um negative Auswirkungen auf die SEO-Ergebnisse zu vermeiden. Überprüfen Sie gründlich noindex-Tags und Disallow-Regeln auf Ihren Seiten.

Überbeanspruchen Sie die Crawl-Verzögerung nicht

Wir haben die Crawling-Verzögerung erklärt, aber Sie sollten sie nicht häufig verwenden, da sie Bots daran hindert, alle Seiten zu crawlen. Es mag für einige Websites funktionieren, aber Sie können Ihr Ranking und Ihren Traffic beeinträchtigen, wenn Sie eine große Website haben.

Achten Sie auf Groß- und Kleinschreibung

Bei der Datei „Robots.txt“ wird zwischen Groß- und Kleinschreibung unterschieden, daher müssen Sie sicherstellen, dass Sie eine Robots-Datei im richtigen Format erstellen. Die Robots-Datei sollte „robots.txt“ heißen und nur aus Kleinbuchstaben bestehen. Sonst geht es nicht.

Weitere Best Practices:

Stellen Sie sicher, dass Sie das Crawlen von Inhalten oder Abschnitten Ihrer Website nicht blockieren.
Verwenden Sie robots.txt nicht, um sensible Daten (private Benutzerinformationen) aus den SERP-Ergebnissen fernzuhalten. Verwenden Sie eine andere Methode, z. B. Datenverschlüsselung oder die Meta-Direktive noindex , um den Zugriff einzuschränken, wenn andere Seiten direkt auf die private Seite verlinken.
Einige Suchmaschinen haben mehr als einen User-Agent. Google verwendet beispielsweise Googlebot für organische Suchen und Googlebot-Image für Bilder. Das Angeben von Anweisungen für die mehreren Crawler jeder Suchmaschine ist nicht erforderlich, da die meisten Benutzeragenten derselben Suchmaschine denselben Regeln folgen.
Eine Suchmaschine speichert die robots.txt-Inhalte im Cache, aktualisiert sie jedoch täglich. Wenn Sie die Datei ändern und schneller aktualisieren möchten, können Sie die Datei-URL an Google senden.

Zum Inhaltsverzeichnis ↑

Verwenden von robots.txt zum Verhindern der Indexierung von Inhalten

Das Deaktivieren einer Seite ist die effektivste Methode, um zu verhindern, dass Bots sie direkt crawlen. Es funktioniert jedoch nicht in den folgenden Situationen:

Wenn eine andere Quelle Links zu der Seite hat, werden die Bots sie dennoch crawlen und indizieren.
Illegitime Bots werden den Inhalt weiterhin crawlen und indizieren.

Verwendung von robots.txt zum Schutz privater Inhalte

Einige private Inhalte wie PDFs oder Dankesseiten können auch dann indexierbar sein, wenn Sie die Bots blockieren. Das Platzieren aller Ihrer exklusiven Seiten hinter einem Login ist eine der besten Möglichkeiten, die Disallow-Richtlinie zu stärken. Ihre Inhalte bleiben verfügbar, aber Ihre Besucher müssen einen zusätzlichen Schritt unternehmen, um darauf zuzugreifen.

Verwendung von robots.txt zum Verstecken bösartiger doppelter Inhalte

Duplicate Content ist entweder identisch oder sehr ähnlich zu anderen Inhalten in derselben Sprache. Google versucht, Seiten mit einzigartigem Inhalt zu indizieren und anzuzeigen. Wenn Ihre Website beispielsweise „normale“ und „Druck“-Versionen jedes Artikels hat und ein noindex-Tag keine davon blockiert, wird eine davon aufgelistet.

Beispiele für robots.txt-Dateien

Im Folgenden finden Sie einige Beispiele für robots.txt-Dateien. Diese sind in erster Linie für Ideen gedacht, aber wenn eine davon Ihren Anforderungen entspricht, kopieren Sie sie und fügen Sie sie in ein Textdokument ein, speichern Sie sie als „robots.txt“ und laden Sie sie in das richtige Verzeichnis hoch.

All-Access für alle Bots

Es gibt mehrere Möglichkeiten, Suchmaschinen anzuweisen, auf alle Dateien zuzugreifen, einschließlich einer leeren robots.txt-Datei oder keiner.

User-Agent: *

Nicht zulassen:

Kein Zugriff für alle Bots

Die folgende robots.txt-Datei weist alle Suchmaschinen an, den Zugriff auf die gesamte Website zu vermeiden:

User-Agent: *

Nicht zulassen: /

Blockieren Sie ein Unterverzeichnis für alle Bots

User-Agent: *

Nicht zulassen: /Ordner/

Ein Unterverzeichnis für alle Bots sperren (mit einer erlaubten Datei)

User-Agent: *

Nicht zulassen: /Ordner/

Zulassen: /Ordner/Seite.html

Blockieren Sie eine Datei für alle Bots

User-Agent: *

Nicht zulassen: /this-is-a-file.pdf

Blockieren Sie einen Dateityp (PDF) für alle Bots

User-Agent: *

Nicht zulassen: /*.pdf$

Blockieren Sie alle parametrisierten URLs nur für den Googlebot

User-Agent: Googlebot

Nicht zulassen: /*?

So testen Sie Ihre robots.txt-Datei auf Fehler

Fehler in Robots.txt können schwerwiegend sein, daher ist es wichtig, sie zu überwachen. Überprüfen Sie regelmäßig den Bericht „Coverage“ in der Search Console auf Probleme im Zusammenhang mit robot.txt. Einige der Fehler, auf die Sie stoßen könnten, was sie bedeuten und wie Sie sie beheben können, sind unten aufgeführt.

Eingesendete URL durch robots.txt blockiert

Es zeigt an, dass robots.txt mindestens eine der URLs in Ihrer/Ihren Sitemap(s) blockiert hat. Wenn Ihre Sitemap korrekt ist und keine kanonisierten, nicht indexierten oder umgeleiteten Seiten enthält, sollte robots.txt keine von Ihnen gesendeten Seiten blockieren. Wenn dies der Fall ist, identifizieren Sie die betroffenen Seiten und entfernen Sie die Blockierung aus Ihrer robots.txt-Datei.

Sie können den robots.txt-Tester von Google verwenden, um die Blockierungsrichtlinie zu identifizieren. Seien Sie vorsichtig, wenn Sie Ihre robots.txt-Datei bearbeiten, da sich ein Fehler auf andere Seiten oder Dateien auswirken kann.

Zum Inhaltsverzeichnis ↑

Blockiert durch robots.txt

Dieser Fehler weist darauf hin, dass robots.txt Inhalte blockiert hat, die Google nicht indexieren kann. Entfernen Sie den Crawl-Block in der robots.txt, wenn dieser Inhalt entscheidend ist und indiziert werden soll. (Überprüfen Sie außerdem, dass der Inhalt nicht noindexed ist.)

Wenn Sie Inhalte aus dem Index von Google ausschließen möchten, verwenden Sie ein Robot-Meta-Tag oder einen X-Robots-Header und entfernen Sie den Crawl-Block. Nur so können Inhalte aus dem Index von Google herausgehalten werden.

Indiziert, obwohl von robots.txt blockiert

Das bedeutet, dass Google immer noch einige der von robots.txt blockierten Inhalte indiziert. Robots.txt ist nicht die Lösung, um zu verhindern, dass Ihre Inhalte in den Google-Suchergebnissen angezeigt werden.

Um die Indexierung zu verhindern, entfernen Sie den Crawl-Block und ersetzen Sie ihn durch ein Meta-Robots-Tag oder einen x-robots-Tag-HTTP-Header. Wenn Sie diesen Inhalt versehentlich blockiert haben und möchten, dass Google ihn indexiert, entfernen Sie den Crawling-Block in robots.txt. Es kann dabei helfen, die Sichtbarkeit des Inhalts in der Google-Suche zu verbessern.

Robots.txt vs. Meta-Roboter vs. X-Roboter

Was unterscheidet diese drei Roboterbefehle? Robots.txt ist eine einfache Textdatei, während meta und x-robots Meta-Direktiven sind. Über ihre grundlegenden Rollen hinaus haben die drei unterschiedliche Funktionen. Robots.txt legt das Crawling-Verhalten für die gesamte Website oder das gesamte Verzeichnis fest, während Meta- und X-Robots das Indexierungsverhalten für einzelne Seiten (oder Seitenelemente) definieren.

Weiterlesen

Nützliche Ressourcen

Wikipedia: Robots Exclusion Protocol
Googles Dokumentation zu Robots.txt
Bing (und Yahoo) Dokumentation zu Robots.txt
Richtlinien erklärt
Yandex-Dokumentation zu Robots.txt

Zum Inhaltsverzeichnis ↑

Einpacken

Wir hoffen, dass Sie die Bedeutung der robot.txt-Datei und ihren Beitrag zu Ihrer gesamten SEO-Praxis und der Rentabilität Ihrer Website vollständig verstanden haben. Wenn Sie immer noch Schwierigkeiten haben, mit Ihrer Website Einnahmen zu erzielen, müssen Sie nicht programmieren, um mit Adsterra-Anzeigen Einnahmen zu erzielen. Platzieren Sie einen Anzeigencode auf Ihrer HTML-, WordPress- oder Blogger-Website und fangen Sie noch heute an, Gewinne zu erzielen!

VERKEHR ZU MONETISIEREN