This page has been robot translated, sorry for typos if any. Original content here.

Robots.txt-Datei

Wenn Sie sich jemals über die Statistik der Besuche auf Ihrer Website gewundert haben, sollten Sie bemerkt haben, dass sie regelmäßig von verschiedenen Suchmaschinen besucht wird. Natürlich sind das keine Menschen, sondern spezielle Programme, die oft als "Roboter" bezeichnet werden. "Robots" durchsuchen die Website auch indexieren die Web-Ressource, so dass es dann mit Hilfe der Suchmaschine gefunden werden kann, deren "Roboter" Indexierung beschäftigt war.

Alle "Roboter" vor der Indizierung der Ressource suchen im Stammverzeichnis Ihrer Site nach einer Datei namens robots.txt. Diese Datei enthält Informationen darüber, welche Dateien von "Robotern" indiziert werden können, welche nicht. Dies ist nützlich, wenn Sie einige Seiten nicht indizieren möchten, die beispielsweise "private" Informationen enthalten.

Die robots.txt-Datei muss das Textdateiformat für Unix besitzen. Einige Editoren können gewöhnliche Windows-Dateien konvertieren, manchmal kann der FCT-Client dies tun. Die Datei besteht aus Datensätzen, von denen jeder ein Paar Felder enthält: eine Zeichenfolge mit dem Namen der Client-Anwendung (Benutzer-Agent), auch eine oder mehrere Zeilen beginnend mit der Disallow-Anweisung:
<Feld> ":" <Wert>

Die User-Agent-Zeichenfolge enthält den Namen "Roboter". Zum Beispiel:
Benutzeragent: googlebot

Wenn Sie auf alle Robots zugreifen, können Sie das Platzhalterzeichen "*" verwenden:
User-Agent: *

Die Namen von Robotern dürfen in den Logs des Zugriffs auf Ihren Webserver gefunden werden.

Der andere Teil des Befehls besteht aus den Zeilen Disallow. Diese Zeilen sind Anweisungen für den angegebenen "Roboter". Sie teilen dem "Roboter" mit, welche Dateien und / oder Verzeichnisse der Roboter nicht indexieren darf. Zum Beispiel:
Nicht zulassen: email.htm

Die Richtlinie kann auch den Namen des Katalogs haben:
Nicht zulassen: / cgi-bin /

In den Disallow-Anweisungen können auch Platzhalter verwendet werden. Der Standard schreibt vor, dass die / bob-Direktive verhindert, dass Spider /bob.html indexieren, auch /bob/index.html.

Wenn die Disallow-Anweisung leer ist, bedeutet dies, dass der Roboter alle Dateien indizieren kann. Es muss mindestens eine Disallow-Anweisung für jedes User-Agent-Feld vorhanden sein, damit robots.txt als korrekt angesehen wird. Völlig leer robots.txt heißt dann bla bla bla, als ob es überhaupt nicht üblich wäre.