Die robots.txt-Datei

Wenn Sie jemals interessiert in der Statistik der Besuche auf Ihrer Website sind, müssen Sie bemerkt haben, dass sie in regelmäßigen Abständen verschiedene Suchmaschinen besuchen. Natürlich gilt dies nicht Menschen, sondern spezielle Programme, die oft "Roboter" bezeichnet. "Roboter" sind die Website durchsuchen und Index der Web-Ressource, so ist, dann war es erlaubt, mit Hilfe einer Suchmaschine zu finden, deren "Roboter" Indizierung zu tun.

Alle "Roboter", bevor Ressourcenindexierungs an der Wurzel Ihrer Website Datei mit dem Namen robots.txt suchen. Diese Datei enthält Informationen darüber, welche Dateien sind "Roboter" indiziert werden können, bei denen es aber nicht. Dies ist nützlich in den Fällen, zu welcher Zeit Sie unerwünschte Indizierung bestimmte Seiten, zum Beispiel enthalten "geschlossen" Informationen.

Die robots.txt-Datei ist gezwungen, eine Textdateiformat für Unix zu halten. Einige Editoren können herkömmliche Windows-Dateien zu konvertieren, manchmal kann es die FCT-Client machen. Die Datei besteht aus Einträgen, von denen jeder ein Paar von Feldern enthält: die Zeichenfolge mit dem Namen der Client-Anwendung (User-Agent) und eine oder mehrere Zeilen beginnend mit Disallow Richtlinie:
<Feld> "," <value>

User-agent Zeichenfolge enthält den Namen des "Roboter". Zum Beispiel:
User-agent: Googlebot

Wenn Sie auf alle Roboter anwenden, können Sie das Wildcard-Zeichen "*" verwenden:
User-agent: *

Die Namen der Roboter können in Zeitschriften Zugriff auf Ihren Web-Server zu finden.

Ein weiterer Anteil des Teams besteht aus Linien nicht zulassen. Diese Linien - Richtlinien für die "Roboter". Sie berichten, "Roboter", die Dateien und / oder Verzeichnisse von der Indizierung Roboter verboten sind. Zum Beispiel:
Disallow: email.htm

Die Richtlinie kann auch Ordnernamen haben:
Disallow: / cgi-bin /

Die Richtlinien können scheinen nicht zulassen als Platzhalter verwendet. Die Norm schreibt vor, dass die Richtlinie / bob Verbot "Spinnen" zu indizieren auch /bob.html, auch /bob/index.html.

Wenn nicht zulassen Richtlinie leer ist, bedeutet dies, dass der Roboter Index aller Dateien. Mindestens eine Disallow Richtlinie muss für jedes Feld User-Agent vorhanden sein, so wurde die robots.txt korrekt. Komplett leer robots.txt bedeutet wie, dass Blabla Sache, wenn es nicht üblich gewesen wäre.