This page has been robot translated, sorry for typos if any. Original content here.

Robots.txt Datei

Wenn Sie sich jemals über die Statistiken der Besuche auf Ihrer Website gefragt, sollten Sie bemerkt haben, dass in regelmäßigen Abständen von verschiedenen Suchmaschinen besucht wird. Natürlich sind es nicht Leute, sondern spezielle Programme, die oft als "Roboter" bezeichnet werden. "Roboter" durchsuchen die Website auch Index der Web-Ressource, so dass es dann mit Hilfe der Suchmaschine gefunden werden kann, deren "Roboter" in der Indizierung engagiert wurde.

Alle "Roboter", bevor sie die Ressource indizieren, suchen nach einer Datei namens robots.txt im Stammverzeichnis Ihrer Website. Diese Datei enthält Informationen darüber, welche Dateien "Roboter" indexieren können, aber welche nicht. Dies ist nützlich in Fällen, in denen Sie nicht möchten, um einige Seiten, zum Beispiel mit "privaten" Informationen.

Die Datei robots.txt ist gezwungen, das Textdateiformat für Unix zu besitzen. Einige Editoren können normale Windows-Dateien konvertieren, manchmal kann der FCT-Client es tun. Die Datei besteht aus Datensätzen, die jeweils ein Paar von Feldern enthalten: eine Zeile mit dem Namen der Client-Anwendung (User-Agent), auch eine oder mehrere Zeilen beginnend mit der Disallow-Direktive:
<Feld> ":" <Wert>

Die User-Agent-Zeichenfolge enthält den Namen des Roboters. Zum Beispiel:
User-Agent: googlebot

Wenn Sie auf alle Roboter zugreifen, können Sie das Wildcard-Zeichen "*" verwenden:
User-Agent: *

Die Namen der Roboter dürfen in den Protokollen des Zugriffs auf Ihren Webserver gefunden werden.

Der andere Teil des Befehls besteht aus den Zeilen Disallow. Diese Zeilen sind Richtungen für den gegebenen "Roboter". Sie sagen dem "Roboter", welche Dateien und / oder Verzeichnisse der Roboter von der Indizierung verboten ist. Zum Beispiel:
Nicht zulassen: email.htm

Die Richtlinie kann auch den Namen des Kataloges haben:
Disallow: / cgi-bin /

In den Disallow-Direktiven können auch Wildcards verwendet werden. Der Standard diktiert, dass die / bob-Richtlinie Spinnen aus der Indizierung /bob.html, auch /bob/index.html, verhindern wird.

Wenn die Disallow-Richtlinie leer wird, bedeutet dies, dass der Roboter alle Dateien indexieren kann. Zumindest muss für jedes User-Apert-Feld eine Disallow-Direktive vorhanden sein, damit robots.txt als richtig betrachtet wird. Vollständig leere robots.txt bedeutet dann blah blah blah, als ob es überhaupt nicht üblich war.