This page has been robot translated, sorry for typos if any. Original content here.

Robots.txt-Datei

Wenn Sie schon einmal an Statistiken über Besuche auf Ihrer Website interessiert waren, sollten Sie bemerkt haben, dass gelegentlich verschiedene Suchmaschinen sie besuchen. Natürlich handelt es sich nicht um Menschen, sondern um spezielle Programme, die oft als "Roboter" bezeichnet werden. "Roboter", die die Website durchsuchen, indizieren auch die Webressource, so dass sie mit Hilfe der Suchmaschine, deren "Roboter" mit der Indizierung beschäftigt war, gefunden werden konnte.

Alle "Robots" suchen vor dem Indizieren einer Ressource nach einer Datei im Stammverzeichnis Ihrer Site mit dem Namen "robots.txt". Diese Datei enthält Informationen darüber, welche Robots-Dateien indiziert werden können, welche jedoch nicht. Dies ist nützlich, wenn Sie nicht möchten, dass einige Seiten indiziert werden, z. B. "geschlossene" Informationen enthalten.

Die Datei robots.txt muss ein Textdateiformat für Unix besitzen. Einige Editoren können normale Windows-Dateien konvertieren, manchmal kann dies der FCT-Client. Die Datei besteht aus Datensätzen, von denen jedes ein Paar von Feldern enthält: eine Zeile mit dem Namen der Clientanwendung (Benutzeragent) sowie eine oder mehrere Zeilen, die mit der Direktive Disallow beginnen:
<Feld> ":" <Wert>

Der String User-Agent enthält den Namen "robot". Zum Beispiel:
Benutzeragent: googlebot

Wenn Sie auf alle Roboter zugreifen, können Sie den Platzhalter "*" verwenden:
Benutzeragent: *

Die Namen der Roboter dürfen in den Zugriffsprotokollen auf Ihren Webserver gefunden werden.

Ein anderer Teil des Teams besteht aus Abweisen von Zeilen. Diese Zeichenfolgen sind Anweisungen für diesen "Roboter". Sie teilen dem Roboter mit, welche Dateien und / oder Verzeichnisse der Roboter nicht indizieren darf. Zum Beispiel:
Nicht zulassen: email.htm

Die Direktive kann auch einen Verzeichnisnamen haben:
Nicht zulassen: / cgi-bin /

In Disallow-Anweisungen können auch Platzhalter verwendet werden. Der Standard schreibt vor, dass die / bob-Direktive Spiders daran hindern soll, auch /bob.html, auch /bob/index.html, zu indexieren.

Wenn die Disallow-Direktive leer wird, kann der Roboter alle Dateien indizieren. Für jedes User-Agent-Feld muss mindestens eine Disallow-Direktive vorhanden sein, damit robots.txt als gültig betrachtet wird. Vollständig leere robots.txt bedeutet, dass bla bla, als ob es nicht üblich wäre.