This page has been robot translated, sorry for typos if any. Original content here.

Robots.txt-Datei

Wenn Sie sich jemals für die Besuchsstatistik Ihrer Website interessiert haben, sollten Sie bemerkt haben, dass von Zeit zu Zeit verschiedene Suchmaschinen darauf zugreifen. Natürlich handelt es sich nicht um Menschen, sondern um spezielle Programme, die oft als "Roboter" bezeichnet werden. Die „Roboter“, die die Site durchsuchen, indizieren auch die Webressource, sodass sie mithilfe der Suchmaschine, deren „Roboter“ mit der Indizierung befasst war, gefunden werden kann.

Alle "Robots" suchen vor dem Indizieren einer Ressource im Stammverzeichnis Ihrer Site nach einer Datei mit dem Namen robots.txt. Diese Datei enthält Informationen darüber, welche Robots-Dateien indiziert werden können, welche jedoch nicht. Dies ist nützlich, wenn Sie nicht möchten, dass einige Seiten indexiert werden, z. B. mit "geschlossenen" Informationen.

Die robots.txt-Datei muss ein Textdateiformat für Unix besitzen. Einige Editoren können normale Windows-Dateien konvertieren, manchmal kann dies der FCT-Client. Die Datei besteht aus Datensätzen, von denen jeder ein Feldpaar enthält: eine Zeile mit dem Namen der Client-Anwendung (Benutzer-Agent) sowie eine oder mehrere Zeilen, die mit der Direktive Disallow beginnen:
<Feld> ":" <Wert>

Der String User-Agent enthält den Namen "robot". Zum Beispiel:
User-Agent: googlebot

Wenn Sie auf alle Roboter zugreifen, können Sie den Platzhalter "*" verwenden:
User-Agent: *

Die Namen der Roboter können in den Zugriffsprotokollen Ihres Webservers gefunden werden.

Ein weiterer Teil des Teams besteht aus Disallow-Linien. Diese Zeichenfolgen sind Anweisungen für diesen "Roboter". Sie teilen dem Roboter mit, welche Dateien und / oder Verzeichnisse der Roboter nicht indizieren darf. Zum Beispiel:
Disallow: email.htm

Die Direktive kann auch einen Verzeichnisnamen haben:
Disallow: / cgi-bin /

In Disallow-Anweisungen werden möglicherweise auch Platzhalter verwendet. Der Standard schreibt vor, dass die / bob-Direktive Spinnen verbietet, auch /bob.html und /bob/index.html zu indizieren.

Wenn die Direktive Disallow leer wird, kann der Roboter alle Dateien indizieren. Für jedes User-Agent-Feld muss mindestens eine Disallow-Direktive vorhanden sein, damit robots.txt als gültig betrachtet wird. Vollständig leere robots.txt bedeutet, dass bla bla, als ob es nicht üblich wäre.