This page has been robot translated, sorry for typos if any. Original content here.

Datei Robots.txt

Wenn Sie sich jemals über die Statistik der Besuche Ihrer Website gewundert haben, sollten Sie bemerkt haben, dass es regelmäßig von verschiedenen Suchmaschinen besucht wird. Natürlich sind sie keine Menschen, sondern spezielle Programme, die oft als "Roboter" bezeichnet werden. "Robots" durchsuchen die Website auch, um die Webressource zu indizieren, so dass sie dann mit Hilfe der Suchmaschine gefunden werden kann, deren "Roboter" mit der Indizierung beschäftigt war.

Alle "Roboter" vor der Indizierung der Ressource suchen nach einer Datei namens robots.txt im Stammverzeichnis Ihrer Site. Diese Datei enthält Informationen darüber, welche Dateien "robots" indizieren können, welche nicht. Dies ist nützlich, wenn Sie nicht einige Seiten indizieren möchten, die beispielsweise "private" Informationen enthalten.

Die robots.txt-Datei muss das Textdateiformat für Unix besitzen. Manche Editoren können gewöhnliche Windows-Dateien konvertieren, manchmal kann der FCT-Client dies tun. Die Datei besteht aus Datensätzen, die jeweils ein Paar Felder enthalten: eine Zeichenfolge mit dem Namen der Clientanwendung (user-agent), außerdem eine oder mehrere Zeilen, die mit der Anweisung "Disallow" beginnen:
<Feld> ":" <Wert>

Die User-Agent-Zeichenfolge enthält den Namen "robot". Zum Beispiel:
User-Agent: googlebot

Wenn Sie auf alle Roboter zugreifen, können Sie das Platzhalterzeichen "*" verwenden:
User-Agent: *

Die Namen von Robotern können in den Protokollen des Zugriffs auf Ihren Webserver gefunden werden.

Der andere Teil des Befehls besteht aus den Zeilen Disallow. Diese Zeilen sind Anweisungen für den gegebenen "Roboter". Sie sagen dem "Roboter", welche Dateien und / oder Verzeichnisse der Roboter an der Indizierung hindert. Zum Beispiel:
Disallow: email.htm

Die Richtlinie kann auch den Namen des Katalogs haben:
Disallow: / cgi-bin /

In den Direktiven Disallow können auch Platzhalter verwendet werden. Der Standard schreibt vor, dass die / bob-Direktive verhindert, dass Spider /bob.html, auch /bob/index.html, indiziert werden.

Wenn die Anweisung Disallow leer wird, bedeutet dies, dass der Roboter alle Dateien indizieren kann. Es muss mindestens eine Disallow-Direktive für jedes User-Agent-Feld vorhanden sein, damit die robots.txt-Datei als korrekt angesehen wird. Vollständig leere robots.txt bedeutet dann bla bla bla, als ob es überhaupt nicht üblich wäre.