Wikipedia-Artikel zur robots.txt ist falsch

Sie sind hier: Blog: Wikipedia-Artikel zur robots.txt ist falsch

Wikipedia-Artikel zur robots.txt ist falsch

30.03.2015

Webmaster können mit einer Textdatei namens robots.txt im Wurzelverzeichnis ihrer Domain Regeln für Suchmaschinen-robots (Crawler) erstellen, die bestimmen, ob die robots auf zugehörige Verzeichnisse und Dateien zugreifen dürfen oder nicht. Diese Regeln sind im robots.txt-Standard aus dem Jahr 1994 festgelegt. Die Beachtung dieser Regeln ist freiwillig, aber brave robots wie Googlebot oder Bingbot halten sich daran. Der aktuelle robots.txt-Artikel der Wikipedia in der Version vom 21.06.2014 enthält mehrere Fehler:

1. Wikipedia-Fehler: Crawlern wird die Indexierung verboten:

Wikipedia schreibt:

Mit den folgenden Befehlen wird allen Webcrawlern die Indexierung der kompletten Webpräsenz verboten.
User-agent: * Disallow: /

Die Wikipedia-Behauptung ist falsch: Diese robots.txt-Anweisung verbietet den Crawlern (robots) nicht die Indexierung, sondern den Zugriff. Mit einer robots.txt-Datei läßt sich das Lesen und Untersuchen von Dateien bzw. Adressen verhindern, nicht aber deren Indexierung.

Wikipedia schreibt:

Webcrawler können auch durch Meta-Elemente im HTML-Quelltext einer Webseite am Indexieren gehindert werden.

Das Wort auch ist falsch, weil es beim unbedarften Leser des Wikipedia-Artikels die Erwartung erweckt, dieses Ziel könnte durch die Verwendung einer robots.txt-Datei erreicht werden. Das ist irreführend.

Wikipedia schreibt:

Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden URLs trotzdem in den Suchergebnisseiten an ...

Das Wort trotzdem ist falsch, weil es nie Ziel des Robots Exclusion Standard war und nicht ist, Regeln vorzugeben, wie sich Indexierung und Anzeige in den Suchergebnissen verhindern lassen. Ziel war und ist ausschließlich, den Zugriff von Suchmaschinen-robots zu verhindern.

2. Wikipedia-Fehler: Diese Inhalte verschwinden bald:

Wikipedia schreibt:

User-agent: * Disallow: /default.html Disallow: /Temp/ # diese Inhalte verschwinden bald Disallow: /Privat/Familie/Geburtstage.html # Nicht geheim, sollen aber nicht in Suchmaschinen gelistet werden.

Beide Kommentare der Wikipedia-Schreiber sind falsch:

Falscher 1. Wikipedia-Kommentar:

Die Seiten aus dem Verzeichnis /Temp/ (sofern indexiert) werden nie aus dem Google-Index verschwinden, solange der Zugriff auch für Googlebot verboten ist. Denn Googlebot könnte nicht mal wahrnehmen, wenn zwischenzeitlich einzelne oder alle Seiten in diesem Verzeichnis vom Webmaster mit folgendem Meta-Element versehen wurden:

<meta name="robots" content="noindex, nofollow">

Der erste Kommentar ist eine Übersetzung aus dem Englischen: Dort steht:

Disallow: /tmp/ # these will soon disappear

Etwas falsches wird aber nicht dadurch wahr, daß es zuerst auf Englisch behauptet wurde.

Falscher 2. Wikipedia-Kommentar:

Die Seite Geburtstage.html aus dem Verzeichnis /Privat/Familie/ wird sehr wahrscheinlich in Suchmaschinen gelistet, sofern die Suchmaschinen einen (internen oder externen) Link zu dieser Seite finden. Wenn die Seite das Meta-Element <meta name="robots" content="noindex, nofollow"> enthielte (natürlich ohne Silbentrennung, die ggf. von Ihrem Browser vorgenommen wurde), müßte die Sperre in der robots.txt vom Webmaster beseitigt werden, damit Google auf diese Seite zugreifen darf, die Seite liest und das Meta-Element erkennt. Erst dann könnte Google die Seite aus dem Index und somit aus den Suchergebnissen entfernen. Google hat in solchen Fällen (also Indexierung infolge eines Links bei gleichzeitiger Sperre in der robots.txt) bis vor kurzer Zeit beim Suchergebnis etwa nach site:domain einen Textschnippsel in schwarzer Farbe angezeigt mit der Angabe, daß die Seite vom Webmaster in der robots.txt gesperrt wurde. Neuerdings zeigt Google diesen Textschnippsel nicht mehr an, nur noch (wie sonst auch) die blaue Titel-Zeile und die grüne URL-Zeile. Die Suchmaschinen Bing und Ask führen solche Seiten zwar im Index, zeigen sie jedoch in ihren Suchergebnissen nicht an.

Beispiele: Wikipedia-Einträge im Google-Index trotz Sperre in der robots.txt:

Hier ein paar Beispiele für Wikipedia-Seiten, die trotz Sperre in den robots.txt-Dateien (jeweils für die Protokolle http und https) von Google indexiert wurden und bei der site:-Abfrage in den Suchergebnissen angezeigt werden:

Diese Einträge gehören zu einem sehr umfangreichen Datensatz, der mit User-agent: * (gilt für alle robots) eingeleitet wird (wie jeder in der Wikipedia-robots.txt nachlesen kann). Hinweis: Die endlos langen Adressen der vier Google-Suchergebnisseiten habe ich aus technischen Gründen mit dem Kurz-URL-Dienst tinyurl.com verschlüsselt.

3. Wikipedia-Fehler: Crawler halten an, wenn sich ein Block auf sie bezieht:

Wikipedia schreibt:

Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich ein Block auf sie bezieht.

Nein, die Crawler halten nicht an. Sie lesen die ganze robots.txt mit allen Datensätzen, um festzustellen, welcher Datensatz auf sie zutrifft. Das geht eindeutig aus dem Google-Developers-Artikel Robots.txt Specifications, Abschnitt Order of precedence for user-agents, hervor:

Only one group of group-member records is valid for a particular crawler. The crawler must determine the correct group of records by finding the group with the most specific user-agent that still matches.

Damit wirklich kein Zweifel aufkommen kann, folgt in der Google-Dokumentation anschließend auch noch ein Beispiel, aus dem ersichtlich wird, daß ein robot alle Datensätze (records) lesen muß, um den auf ihn zutreffenden Datensatz zu ermitteln. Wenn er nach eigener Lust und Laune irgendwo spontan anhielte, würde er vielleicht den falschen Datensatz erwischen.

Fazit: Der Wikipedia-Artikel ist irreführend

Die Artikel-Editoren verlassen sich Wikipedia-üblich auf Sekundär-Quellen, die nötige Praxis-Erfahrung im Umgang mit der robots.txt scheint keiner zu haben. Außerdem gilt bei nachträglich eingeflickten Verschlimmbesserungen wie fast überall: Viele Köche verderben den Brei.

Wer sich als Webmaster allgemein über den Robots Exclusion Standard und vor allem über die Nutzung einer robots.txt-Datei für seine Website informieren will, sollte besser nicht den irreführenden Wikipedia-Artikel zu Rate ziehen. Denn der Artikel vermischt und verwischt die verschiedenen Begriffe Zugriffsverbot und Indexierungsverbot.

Informations-suchende Webmaster verwenden besser andere Quellen. Google liefert seit einiger Zeit recht nützliche Anleitungen wie etwa robots.txt-Datei erstellen (mit Links zu drei weiteren Hilfetexten). Schon etwas älter, aber nicht minder aktuell ist meine eigene Infoseite robots.txt: Verzeichnisse oder Seiten für Robots sperren (Synthax und Beispiele).

veröffentlicht in kat_Wikipedia, kat_Internet

RSS-Seite anzeigen (Feed-Abo ?)

Blog nach Kategorien:

Seitenanfang

Gösta Thomas' Blog