Sitemap, XML-basiertes Format

Inhalt:

Dieses Dokument beschreibt die XML-Schema-Sitemap-Protokoll.

Der Sitemap-Protokoll-Format besteht aus XML-Tags. Alle Datenwerte in einer Sitemap müssen maskiert . Die Datei muss UTF-8-Codierung verwenden.

Die Sitemap muss:

  • Beginnen Sie mit einem öffnenden Tag < urlset > und enden mit einem schließenden Tag </urlset> .
  • Geben Sie den Namensraum (Protokollstandard) innerhalb des Tags <urlset> .
  • Starten Sie die Aufnahme < url > für jede URL-Adresse wie die übergeordnete XML - Tag.
  • Fügen Sie Kind - Eintrag < loc > für jede übergeordnete Tag <url> .

Alle Tags sind optional. Die Unterstützung für diese optionalen Tags können je nach Suchmaschine abhängig. Weitere Informationen finden Sie in der Dokumentation der Suchmaschine.

Auch alle URL-Adressen in einer Sitemap müssen von einem einzigen Host sein, wie www.example.com oder store.example.com. Weitere Informationen. Siehe Sitemap - Datei Standort

Beispieldatei Sitemap XML-

Das folgende Beispiel zeigt eine Sitemap, die nur eine URL-Adresse enthält, und verwendet alle optionalen Tags. Die optionalen Tags sind kursiv gedruckt.

<?xml version="1.0" encoding="UTF-8"?> < urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < url > < loc >http://www.example.com/</loc> < lastmod >2005-01-01</lastmod> < changefreq >monthly</changefreq> < priority >0.8</priority> </url> </urlset>

Siehe. Auch das Beispiel mehrere URL-Adressen .

Definitionen von XML-Tags

Im Folgenden werden die verfügbaren XML-Tags.

Attribut Beschreibung
<urlset> obligatorisch

Sie kapselt die Datei und verweist auf den aktuellen Protokollstandard.

<url> obligatorisch

Übergeordnetes Tag für jeden Eintrag URL-Adressen. Die übrigen Tags sind Kinder dieses Tags.

<loc> obligatorisch

URL-Adresse der Seite. Dies ist die URL-Adresse sollte mit dem Präfix (zB HTTP) und einem abschließenden Schrägstrich beginnen, wenn Ihr Web-Server erfordert. Dieser Wert sollte nicht mehr als 2048 Zeichen.

<lastmod> nicht unbedingt

Datum Datei zuletzt geändert wurde. Dieses Datum sollte im Format sein W3C für Datum und Uhrzeit . Dieses Format ermöglicht bei Bedarf den Zeitanteil, wegzulassen und YYYY-MM-DD verwenden.

Beachten Sie, dass dieser Tag nicht auf den Titel "If-Modified-Since (304)" verwandt ist, kehrt der Server kann, und Suchmaschinen unterschiedliche Informationen aus diesen beiden Quellen verwenden.

<changefreq> nicht unbedingt

Die wahrscheinliche Häufigkeit von Änderungen an dieser Seite. Dieser Wert enthält allgemeine Informationen zu den Search Engines und korrelieren nicht genau, wie oft sie die Seite kriechen. Gültige Werte sind:

  • immer
  • stündlich
  • täglich
  • wöchentlich
  • monatlich
  • jährlich
  • nie

Der Wert "immer" sollte zu beschreiben Dokumente verwendet werden, die jedes Mal, wenn Sie auf diese Dokumente zugreifen zu ändern. Der Wert "nie" sollte zu beschreiben archivierten URL-Adressen verwendet werden.

Beachten Sie, dass der Wert dieser Tag ein Hinweis betrachtet wird und kein Befehl. Trotz der Tatsache, dass die Suchmaschinen-Crawler diese Informationen berücksichtigen, wenn Entscheidungen zu treffen, können sie kriechen Seiten markiert "stündlich" weniger häufig als das, und die Seiten mit "jährlich" - häufiger als gerichtet. Scanner können in regelmäßigen Abständen Seiten kriechen markiert "nie" unerwartete Änderungen an solchen Seiten zu behandeln.

<priority> nicht unbedingt

Die Priorität dieser URL relativ zu anderen URL auf Ihrer Website. Der gültige Bereich - von 0,0 bis 1,0. Dieser Wert wirkt sich nicht auf den Vergleich, wie Sie Ihre Seiten zu Seiten auf anderen Websites - es können nur die Suchmaschinen wissen, welche Seiten Sie für die Crawler wichtigsten erachten.

Die Priorität der Standardseite - 0.5.

Bitte beachten Sie, dass die Priorität auf eine externe Seite zuweisen, nicht die Position Ihrer URL auf den Suchseiten einer Suchmaschine nicht beeinträchtigt. Suchmaschinen verwenden diese Informationen, wenn URL Verarbeitung, die auf dem gleichen Gelände gehören, so können Sie mit diesem Tag die Wahrscheinlichkeit der Präsenz in den Suchindex Ihre wichtigsten Seiten zu erhöhen.

Darüber hinaus beachten Sie bitte, dass auf Ihrer Website eine hohe Priorität für alle URL-Zuordnung ist nicht sinnvoll. Da die Priorität - relativ, wird dieser Parameter zur Bestimmung der Reihenfolge der Verarbeitung innerhalb der Website-URL verwendet.

Nach oben

Maskierung Zeichen

Die Sitemap-Datei muss in UTF-8 codiert (Sie können dies in der Regel tun, wenn Sie die Datei speichern). In XML-Dateien, alle Datenwerte (einschließlich URL-Adressen) müssen Entity-Escape-Zeichen enthalten sind in der unten stehenden Tabelle verwenden.

Symbol Maskierung
Ampersand & &amp;
Apostrophe ' &apos;
doppelte Anführungszeichen " &quot;
größer > &gt;
weniger < &lt;

Darüber hinaus ist für alle URL (einschließlich der URL Ihrer Sitemap) müssen Unternehmen entkommen und zur besseren Lesbarkeit durch den Web-Server codiert, auf dem sie platziert sind. Allerdings, wenn Ihre URL zu erstellen Sie jede Art von Skript verwenden, das Werkzeug oder log (also alles außer von Hand einzugeben), dies in der Regel bereits für Sie erledigt. Stellen Sie sicher , dass alle URL-Adressen, die dem Standard der entsprechen den RFC-3986 für den URI, Standard RFC-3987 für die IRI und XML-Standard .

Unten ist ein Beispiel - URL-Adressen, die ein anderes Zeichen als das ASCI (verwendet ü ), sowie ein Zeichen , das Unternehmen zu entkommen (erfordert & ):

http://www.example.com/ümlat.php&q=name

Unten ist das gleiche in der ISO-8859-1 angegebenen URL-Adresse codiert (für das Hosting auf einem Server, der diese Codierung verwendet) und URL-escaped:

http://www.primer.ru/%FCmlat.html&q=name

Im Folgenden finden Sie die gleiche URL-Adresse ein UTF-8 codiert ist (für Hosting auf einem Server, der diese Codierung verwendet) und unter Verwendung der Maske:

http://www.example.com/%C3%BCmlat.php&q=name

Unten ist die gleiche URL-Adresse, aber unter Verwendung der Maske:

http://www.example.com/%C3%BCmlat.php&amp;q=name

Beispieldatei Sitemap XML-

Das folgende Beispiel zeigt eine Sitemap im XML-Format. Sitemap in diesem Beispiel besteht aus einer kleinen Anzahl von URL-Adressen, von denen jede eine Kombination von verschiedenen optionalen Parameter verwendet.

<?xml version="1.0" encoding="UTF-8"?> < urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < url > < loc >http://www.example.com/</loc> < lastmod >2005-01-01</lastmod> < changefreq >monthly</changefreq> < priority >0.8</priority> </url> < url > < loc >http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc> < changefreq >weekly</changefreq> </url> < url > < loc >http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc> < lastmod >2004-12-23</lastmod> < changefreq >weekly</changefreq> </url> < url > < loc >http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc> < lastmod >2004-12-23T18:00:15+00:00</lastmod> < priority >0.3</priority> </url> < url > < loc >http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc> < lastmod >2004-11-23</lastmod> </url> </urlset>

Nach oben

Mit Hilfe Sitemap-Indexdateien (zum Gruppieren mehrerer Sitemap-Dateien)

Sie können mehrere Sitemap-Dateien zur Verfügung stellen, aber jede dieser Dateien sollten nicht mehr als 50.000 eine URL sein, und die Größe jeder dieser Dateien sollten nicht mehr als 10 MB nicht überschreiten. Bei Bedarf Sitemap-Datei komprimiert werden kann gzip, um die Anforderungen an die Bandbreite zu reduzieren. Allerdings sollte die Sitemap-Datei Größe ohne Kompression nicht mehr als 10 MB. Wenn Sie mehr als 50.000 URL-Adressen auflisten möchten, müssen Sie mehrere Sitemap-Dateien erstellen.

Wenn Sie mehrere Sitemap-Dateien senden möchten, müssen Sie jede Datei in einer Sitemap-Indexdatei auflisten. Eine Sitemap-Indexdatei kann bis zu 1000 Sitemap-Dateien übertragen werden. Die Größe dieser Datei sollte nicht mehr als 10 MB nicht überschreiten (10 485 60 Bytes) und können komprimiert werden. Sie können mehrere Sitemap-Dateien. Das Format einer Sitemap-Index XML-Datei ist sehr ähnlich wie die Sitemap XML-Dateiformat.

Sitemap-Indexdatei muss:

  • Beginnen Sie mit einem öffnenden Tag < sitemapindex > , und setzen Sie dann die End - Tag </sitemapindex> .
  • Fügen Sie einen Eintrag < sitemap > jede Sitemap als übergeordnetes XML-Tag.
  • Fügen Sie Kind - Eintrag < loc > für jede übergeordnete Tag <sitemap> .

Optionales Tag < lastmod > ist auch für Sitemap - Indexdateien zur Verfügung.

Hinweis. Sitemap-Indexdatei kann nur angeben, Sitemap, die auf der gleichen Seite wie die Sitemap-Indexdatei befinden. Zum Beispiel kann http://www.vashsait.ru/sitemap_index.xml Indexdatei Sitemap-Dateien auf http://www.vashsait.ru Website platziert sind, aber nicht auf der Website oder http http://www.primer.ru : //vashkhost.vashsait.ru. Für eine Sitemap-Indexdatei, sowie für die Sitemap-Dateien müssen UTF-8-Codierung verwenden.

XML-Beispiel Sitemap Index

Das folgende Beispiel zeigt einen Sitemap-Index, der zwei Sitemaps aufführt.

<?xml version="1.0" encoding="UTF-8"?> < sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < sitemap > < loc >http://www.example.com/sitemap1.xml.gz</loc> < lastmod >2004-10-01T18:23:17+00:00</lastmod> </sitemap> < sitemap > < loc >http://www.example.com/sitemap2.xml.gz</loc> < lastmod >2005-01-01</lastmod> </sitemap> </sitemapindex>

Hinweis: Sitemap - URL-Adressen, wie alle Werte in der XML-Dateien, müssen Unternehmen sein entkam .

Definitionen Sitemap Index XML-Tags

Attribut Beschreibung
<sitemapindex> obligatorisch Sie kapselt Informationen über alle Sitemap-Dateien in dieser Datei.
<sitemap> obligatorisch Sie kapselt Informationen über eine Person Sitemap.
<loc> obligatorisch

Es gibt den Speicherort der Sitemap.

Atom-Datei, RSS-Datei oder eine einfache Textdatei: Dieser Ort kann eine Sitemap-Datei sein.

<lastmod> nicht unbedingt

Gibt die Zeit, dass die entsprechende Sitemap-Datei. Es entspricht nicht der Zeit, dass eine der Seiten in der Sitemap. Der Wert der Variablen "lastmod" muss im Format präsentiert das W3C Datetime .

Durch die letzte Änderung Zeitstempel bieten, ermöglichen es Ihnen, Suchmaschinen-Crawler nur einen Teil der Sitemap-Dateien im Index dh einem Crawler nur Sitemap-Dateien abrufen können abgerufen werden, die nach einem bestimmten Datum geändert wurden. Dieser Mechanismus inkrementelle Sitemap fetching ermöglicht die schnelle Entdeckung neuer URL auf sehr große Websites.

Nach oben

Andere Dateiformate Sitemap

Der Sitemap-Protokoll ermöglicht Ihnen, die Suchmaschinen, um Informationen über die Seiten zur Verfügung zu stellen, und wir empfehlen, seine Verwendung, weil es zusätzliche Informationen zu den Seiten zur Verfügung stellen kann, nicht nur ihre URL. Neben dem XML-Protokoll unterstützen wir auch RSS-Feeds und Textdateien, die mehr begrenzte Informationen zur Verfügung stellen.

Syndication-Feed

Sie können einen RSS-Kanal bieten 2.0, Atom 0.3 oder 1.0. Typischerweise wird dieses Format nur, wenn Ihre Website bereits ein Syndication-Feed verwendet. Beachten Sie, dass in diesem Fall möglicherweise nicht die Informationen über alle URL auf Ihre Website erhalten die Suchmaschinen, da dieser Kanal Informationen nur auf der letzten URL zur Verfügung stellt. Allerdings können die Suchmaschinen diese Informationen benutzen, um andere Seiten auf Ihrer Website finden, indem Sie Links auf den Seiten des Kanals während der normalen Abtastung folgen. Stellen Sie sicher, dass der Kanal in der höchsten Ebene Verzeichnis Sie Motoren wollen suchen zu kriechen. Suchmaschinen extrahieren die Informationen aus dem Futter wie folgt.

  • Das Feld <link> - gibt die URL
  • modifizierten Datumsfeld (das Feld <pubDate> für RSS - Feeds und das Datum <change> für Atom - Feeds) - zeigt an, wenn jede URL zuletzt geändert wurde. Verwenden Sie das Änderungsdatum Feld ist optional.

Text

Sie können eine einfache Textdatei, die eine URL pro Zeile enthält. Diese Textdatei muss die folgenden Anforderungen erfüllen.

  • In dieser Textdatei sollte in jeder Zeile nur eine URL sein. Diese URL kann nicht eine neue Zeile eingeführt enthalten.
  • Sie müssen die vollständige URL ein, einschließlich http-Präfix angeben.
  • Jede Textdatei kann nicht mehr als 50 000 eine URL, und seine Größe darf nicht 10MB (10.485.760 Byte) nicht überschreiten. Wenn Ihre Website mehr als 50.000 URL enthält, können Sie die Liste in mehrere Textdateien aufteilen und diese einzeln hinzufügen.
  • Die Textdatei muss UTF-8-Codierung verwenden. Es kann angegeben werden, wenn Sie die Datei (zum Beispiel in der "Notepad" in der "Codierung" im Dialogfeld "Speichern unter" aufgeführt ist) speichern.
  • Diese Textdatei sollte keine anderen Informationen als die Liste der URL enthalten.
  • Die Textdatei sollte keine Kopf- oder Fußzeile enthalten.
  • Bei Bedarf Sitemap-Datei komprimiert werden kann gzip, um die Anforderungen an die Bandbreite zu reduzieren.
  • Diese Textdatei kann einen beliebigen Namen gegeben werden. Stellen Sie sicher , dass Ihre URL-Adressen, die dem Standard der entsprechen den RFC-3986 für URI-Standard - Adressen und die RFC-3987 für die IRI - Datei.
  • Laden Sie diese Textdatei auf dem höchsten Verzeichnisebene Sie suchen möchten Motoren zu kriechen und stellen Sie sicher, dass die Datei nicht zu einer URL hergestellt ist, das in ein übergeordnetes Verzeichnis befinden.

Das folgende Beispiel zeigt die Zeilen eines Textdatei.

http://www.example.com/catalog?item=1
http://www.example.com/catalog?item=11

Nach oben

Sitemap-Datei Standort

Sitemap-Datei Standort definiert eine Reihe von URL-Adressen, die in der Sitemap enthalten sein können. Sitemap-Datei im Verzeichnis http://primer.ru/catalog/sitemap.xml befinden, können keine URL-Adressen enthalten, mit http://primer.ru/catalog/ beginnen, sollte aber nicht URL-Adressen enthalten, die beginnen mit http://primer.ru/images/.

Wenn Sie die Berechtigung http://primer.org/path/sitemap.xml Datei zu ändern, können Sie davon ausgehen, dass Sie auch die Erlaubnis Informationen für ein URL-Präfix http://primer.org/path/ zur Verfügung stellen müssen. Beispiele für gültige URL in http://primer.ru/catalog/sitemap.xml umfassen:

http://example.com/catalog/show?item=23 http://example.com/catalog/show?item=233&user=3453

Unzulässige URL-Adressen http://primer.ru/catalog/sitemap.xml Datei gehören die folgenden:

http://example.com/image/show?item=23 http://example.com/image/show?item=233&user=3453 https://example.com/catalog/page1.php

Das bedeutet, dass alle in der XML-Sitemap aufgeführten URL-Adressen das gleiche Protokoll (in diesem Fall - HTTP) verwenden müssen und sollten sich auf demselben Host wie die Sitemap platziert werden. Zum Beispiel, wenn Sie die Sitemap bei http://www.primer.ru/sitemap.xml befindet, kann es URL-Adresse der Subdomain http://subdomen.primer.ru angegeben werden.

URL-Adressen, die gültig angesehen werden, werden von der weiteren Betrachtung fallen gelassen. Es wird dringend empfohlen, dass Sie Ihre Sitemap im Stammverzeichnis Ihres Web-Server platzieren. Wenn zum Beispiel die Adresse des Servers - primer.ru, Ihre Sitemap-Indexdatei muss bei http://primer.ru/sitemap.xml platziert werden. Vielleicht in einigen Fällen müssen eine Vielzahl von Sitemap-Dateien für verschiedene Pfade auf Ihrer Website zu erstellen (zum Beispiel, wenn die Sicherheitsregeln in Ihrem Unternehmen sind so eingestellt, dass der Schreibzugriff auf verschiedene Verzeichnisse).

Wenn Sie eine Sitemap mit einer Pfad vorzulegen, die die Portnummer enthält, müssen Sie die Portnummer in der URL-Pfad jeweils in der Sitemap-Datei aufgelistet. Wenn Ihre Sitemap-Datei in http://www.primer.ru:100/sitemap.xml Zum Beispiel ist, die jeweils die URL in der Sitemap aufgeführt sind, müssen mit http://www.primer.ru:100 beginnen.

Sitemap-Dateien und das Senden Quer

Um Ihre Sitemap-Dateien auf mehrere Standorte mit einer einreichen, müssen Sie zu "beweisen" Eigentum des Knotens (s), für die die URL-Adresse an die Sitemap-Datei gesendet. Unten ist ein Beispiel. : Zum Beispiel müssen Sie Ihre Sitemap Dateien auf 3 Knoten einreichen www.host1.com с файлом Sitemap sitemap-host1.xml www.host2.com с файлом Sitemap sitemap-host2.xml www.host3.com с файлом Sitemap sitemap-host3.xml

Darüber hinaus ist es notwendig, alle drei Sitemap-Datei auf einem Knoten zu platzieren: www.sitemaphost.com. Somit wird Sitemaps URL-Adressen wie folgt: http://www.sitemaphost.com/sitemap-host1.xml http://www.sitemaphost.com/sitemap-host2.xml http://www.sitemaphost.com/sitemap-host3.xml

Standardmäßig wird dies in einem Fehler "Cross-Versand" führen, da ein Versuch war, www.host1.com Site-URL-Adressen, die über die Sitemap zu senden, die auf www.sitemaphost.com Knoten (das gleiche für die beiden anderen Knoten) befindet . Der erste Weg, um diesen Fehler zu vermeiden - ist ihr Eigentum (wie das Recht, die Datei zu ändern) zu beweisen Knoten www.host1.com. Dies kann durch Änderung der robots.txt-Datei auf www.host1.com Knoten zur Sitemap auf www.sitemaphost.com Website zu Punkt erfolgen.

In diesem Beispiel würde die robots.txt-Datei auf der Website enthalten http://www.host1.com/robots.txt "Sitemap: http://www.sitemaphost.com/sitemap-host1.xml" Zeile. Durch die Änderung der robots.txt-Datei auf der Website www.host1.com mit Bezug auf die Sitemap in www.sitemaphost.com Website, in denen nachgewiesen wird man indirekt, dass der Eigentümer der Website www.host1.com. Mit anderen Worten, die durch eine robots.txt-Datei auf der Website www.host1.com nicht ausgeschlossen werden würde, vertraut er die Sitemap-Datei auf http://www.sitemaphost.com/sitemap-host1.xml Website für Inhalte für die WWW-Site-URL-Adressen. host1.com. Die gleiche Prozedur kann für die anderen beiden Einheiten wiederholt werden.

Jetzt können Sie Ihre Sitemap www.sitemaphost.com Knoten senden.

Wenn eine robots.txt-Datei eine bestimmte Website, wie http://www.host1.com/robots.txt gibt, deutet dies auf eine Sitemap oder Sitemap-Indexdatei auf einem anderen Knoten. Wahrscheinlicher ist, bedeutet dies, dass für jedes Ende Sitemap-Datei, wie zum http://www.sitemaphost.com/sitemap-host1.xml alle URL-Adressen zu einem Knoten gehören, die ihnen zeigt. Dies ist, weil, wie zuvor erwähnt, wird erwartet, dass Sitemap-Datei die URL-Adresse nur einen Knoten enthält.

Nach oben

Überprüfen Sie Ihre Sitemap

Um die Elemente und Attribute bestimmen, die in Ihrer XML-Sitemap-Datei angezeigt werden können, verwenden Sie die folgende XML-Schema. Diese Regelung kann über die Links unten heruntergeladen werden.

Für eine Sitemap - Datei: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Für Sitemap - Indexdateien: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Eine Reihe von Tools, mit denen Sie die Struktur Ihrer Sitemap validieren auf diesem Schema basiert. Sie können eine Liste von Tools für die Arbeit mit XML-Dateien in jeder der folgenden Stellen:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

So überprüfen Sie die Sitemap oder Sitemap-Indexdatei für dieses Schema in XML-Datei möchten Sie zusätzliche Header hinzufügen, wie unten gezeigt.

Sitemap:

<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> ... </url> </urlset>

Sitemap - Indexdatei:

<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> ... </sitemap> </sitemapindex>

Nach oben

Die Erweiterung des Sitemaps-Protokoll

Der Sitemap-Protokoll kann mit Ihrem eigenen Namensraum erweitert werden. Geben Sie einfach diesen Namensraum im Stammelement. Zum Beispiel:

<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension --> <url> <example:example_tag> ... </example:example_tag> ... </url> </urlset>

Nach oben

Informieren Suchmaschinen-Crawler

Sobald Sie Ihre Sitemap wird auf einem Web-Server erstellt und platziert, ist es notwendig, über den Verbleib der Datei Suchmaschinen zu informieren, die dieses Protokoll unterstützen. Dies kann wie folgt durchgeführt werden.

Die Suchmaschinen können die Sitemap-Datei und ihre Crawler abrufen zu URL-Adressen zuzugreifen.

Übertragen Sitemap eine Suchmaschine Schnittstelle

Um Ihren Sitemap direkt an eine Suchmaschine einreichen, die die Möglichkeit bietet, Informationen über den Status und Verarbeitungsfehler finden Sie in der Dokumentation Suchmaschine zu erhalten.

Die Angabe der Sitemap Lage in der Datei robots.txt

Sie können den Speicherort der Sitemap geben Sie eine robots.txt-Datei. Um dies zu tun, fügen Sie einfach die folgende Zeile:

Sitemap: <sitemap_location>

URL <sitemap_location> muss eine vollständige URL der Sitemap sein, wie zum Beispiel: http://www.primer.ru/sitemap.xml

Diese Anweisung hängt nicht von den User-Agent-String, also egal wo sie in der Datei abgelegt wird. Wenn Sie eine Sitemap-Indexdatei haben, können Sie auch nur den Speicherort der Datei enthalten. So listen jede einzelne Sitemap in der Indexdatei aufgeführt ist nicht erforderlich.

Sie können mehrere Sitemap-Dateien für jede Ihrer robots.txt-Datei angeben.

Sitemap: <sitemap1_location> Sitemap: <sitemap2_location>

Übertragen Sitemap eine HTTP-Anforderung mit

So senden Sie Ihre Sitemap eine HTTP-Anfrage (ersetzen Sie <searchengine_URL> auf die URL, die Suchmaschinen) verwenden, erstellen Sie eine Anfrage an die folgende URL-Adressen.

<searchengine_URL>/ping?sitemap=sitemap_url

Zum Beispiel, wenn Sie die Sitemap in einer Archivdatei http://www.primer.ru/sitemap.gz ist, wird URL-Adresse wie folgt aussehen:

<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz

Fügen Sie die URL-Codierung aller Zeichen nach dem / ping Sitemap = ?:

<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.vashsait.com%2Fsitemap.gz

Sie können die http-Anforderung mit "wget", "curl" oder eine andere Methode Ihrer Wahl senden. Успешный запрос возвратит код отклика HTTP 200; если получен другой отклик, необходимо повторно передать запрос. Код отклика HTTP 200 указывает только на то, что поисковая система получила Ваш файл Sitemap, но это не значит, что сам файл Sitemap или содержащиеся в нем URL допустимы. Самый простой способ — создать автоматическое задание для регулярного создания и передачи файлов Sitemap.
Hinweis. Предоставляя файл индекса Sitemap, необходимо инициировать только один http-запрос, который включает местоположение файла индекса Sitemap; отправлять отдельные запросы для каждого файла Sitemap, указанного в этом индексе, не нужно.

Nach oben

Как исключить содержание

Протокол Sitemaps предоставляет поисковым системам информацию о содержании, которое необходимо включить в индекс. Чтобы сообщить поисковым системам о содержании, которое не следует включать в индекс, используйте файл robots.txt или метатег robots. Более подробную информацию о том, как исключить содержание из поисковых систем, см. на странице robotstxt.org .

Nach oben

Häufig gestellte Fragen

Как представлять URL в файле Sitemap?

Имеет ли значение, какой метод кодирования символов используется для создания моих файлов Sitemap?

Как указать время?

Как рассчитать дату последнего изменения?

Куда поместить мой файл Sitemap?

Какой размер файла Sitemap является допустимым?

На моем сайте десятки миллионов URL-адресов; можно ли отправить только те из них, которые изменились недавно?

Что нужно делать после создания файла Sitemap?

Нужно ли полностью указывать URL-адреса в файле Sitemap?

В URL-адресах моего сайта используются оба префикса "http" и "https". Нужно ли перечислять оба варианта?

URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти индентификаторы?

Влияет ли положение URL-адреса в файле Sitemap на его использование?

На некоторых страницах моего сайта используются фреймы. Нужно ли включать URL-адрес набора фреймов или URL-адрес содержания фреймов?

Можно ли использовать архиватор zip для моих файлов Sitemap, или их можно сжимать только с помощью архиватора gzip?

Будет ли параметр приоритетности в XML-файле Sitemap влиять на рейтинг моих страниц в результатах поиска?

Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?

Куда мне обратиться, если у меня возникли другие вопросы по поводу использования протокола или процедуры отправки сведений о размещении файла Sitemap?


Frage. Как представить URL-адрес в файле Sitemap?

В XML-файлах для всех значений данных (включая URL-адреса) маскирование принято использовать для следующих символов: амперсанд (&), одинарная кавычка ('), двойная кавычка ("), знак "меньше" (<) и знак "больше" (>). Кроме того, Вы должны убедиться в том, что все URL-адреса соответствуют стандарту RFC-3986 для URI, стандарту RFC-3987 для IRI и XML-стандарту . Если для создания URL-адресов используются сценарии, маскирование символов в URL-адресе обычно является частью этого сценария. Однако для них все равно необходимо применять маскирование символов. Например, следующий сценарий "python" использует маскирование http://www.primer.ru/view?widget=3&count>2

$ python Python 2.2.2 (#1, Feb 24 2003, 19:13:11) >>> import xml.sax.saxutils >>> xml.sax.saxutils.escape("http://www.example.com/view?widget=3&count>2")

В приведенном выше примере результирующим является следующий URL-адрес:

http://www.example.com/view?widget=3&amp;count&gt;2

Frage. Имеет ли значение метод кодирования символов, который используется для создания моих файлов Sitemap?

Ja. Для файлов Sitemap должна использоваться кодировка UTF-8.

Frage. Как указать время?

Используйте кодировку W3C Datetime для меток времени "lastmod" и всех других дат и времен в этом протоколе. Например, 2004-09-22T14:12:14+00:00.

Эта кодировка позволяет опустить сегмент времени формата ISO8601; например, использование формата 22-09-2004 также допустимо. Однако, если Ваш сайт часто изменяется, рекомендуется включить сегмент времени, чтобы сканеры получили более полную информацию о Вашем сайте.

Frage. Как рассчитать дату последнего изменения?

Для статических файлов это фактическая дата обновления файла. Для получения этой даты можно использовать команду "UNIX date":

$ date --iso-8601=seconds -u -r /home/foo/www/bar.php >> 2004-10-26T08:56:39+00:00

Для многих динамических URL-адресов можно легко рассчитать дату последнего изменения на основе даты изменения исходных данных или с помощью приближения на основе периодических обновлений (если применимо). Даже использование приблизительной даты или отметки времени может помочь сканерам избежать сканирования URL-адресов, которые не были изменены. Это позволяет снизить требования, предъявляемые к пропускной способности канала и к процессорам веб-серверов.

Frage. Куда поместить мой Sitemap?

Настоятельно рекомендуется поместить файл Sitemap в корневой каталог на Вашем HTML-сервере по адресу http://primer.ru/sitemap.xml.

Возможно, в некоторых случаях нужно будет создать несколько файлов Sitemap для различных путей на Вашем сайте, — например, если полномочия доступа в Вашей организации установлены таким образом, что доступ с правом записи к различным каталогам предоставляется отдельно.

Если у Вас есть разрешение на загрузку файла http://primer.ru/path/sitemap.xml, то предполагается, что у Вас также имеется разрешение размещать отчеты по метаданным по адресу http://primer.ru/path/.

Все URL-адреса, указанные в том или ином файле Sitemap, должны размещаться на том же хосте, что и файл Sitemap. Например, если файл Sitemap расположен по адресу http://www.primer.ru/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://subdomen.primer.ru. Если файл Sitemap расположен по адресу http://www.primer.ru/mojapapka/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://www.primer.ru.

Nach oben

Frage. Какой размер файла Sitemap является допустимым?

Размер файлов Sitemap не должен превышать 10 МБ (10485760 байт), и эти файлы не должны включать более 50000 URL. Эти ограничения помогают исключить остановки веб-сервера при размещении очень больших файлов. Это означает, что если Ваш сайт содержит более 50000 URL или размер файла Sitemap превышает 10 МБ, необходимо создать несколько файлов Sitemap и использовать файл индекса Sitemap . Необходимо использовать файл индекса Sitemap даже для небольшого сайта, если предполагается, что количество URL превысит 50000 или размер файла будет больше 10 МБ. В файле индекса Sitemap может быть перечислено не более 1000 файлов Sitemap. Размер этого файла не может превышать 10 МБ. Кроме того, для сжатия файлов Sitemap можно использовать архиватор gzip.

Frage. На моем сайте десятки миллионов URL-адресов, можно ли передать только те из них, которые были изменены недавно?

Можно перечислить часто изменяемые URL-адреса лишь в некоторых файлах Sitemap, а затем использовать тег lastmod в файле индекса Sitemap для идентификации этих файлов Sitemap. После этого поисковые системы могут последовательно сканировать только измененные файлы Sitemap.

Frage. Что нужно делать после создания файла Sitemap?

После создания файла Sitemap сообщите о нем поисковым системам , передав его напрямую, проверив связь с ними или добавив местоположение файла Sitemap в файл robots.txt.

Frage. Необходимо ли полностью указывать URL-адреса в Sitemap?

Ja. Необходимо включить протокол (например, HTTP) в Ваш URL-адрес. Кроме того, необходимо включить концевую косую черту, если этого требует Ваш веб-сервер. Например, адрес http://www.primer.ru/ является допустимым URL-адресом для файла Sitemap, а адрес www.primer.ru — нет.

Frage. В URL-адресах моего сайта используются оба префикса "http" и "https". Нужно ли перечислять оба варианта?

Nein. Укажите в своих файлах Sitemap только одну версию URL-адреса. Добавление нескольких версий URL-адреса может привести к неполному сканированию Вашего сайта.

Frage. URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти идентификаторы?

Ja. Включение идентификаторов сеансов в URL-адреса может привести к неполному и излишнему сканированию Вашего сайта.

Frage. Влияет ли положение URL-адреса в файле Sitemap на его использование?

Nein. Положение URL в файле Sitemap не влияет на то, как он будет использоваться или рассматриваться поисковыми системами.

Frage. На некоторых станицах моего сайта используются фреймы. Нужно ли включать URL-адреса набора фреймов или URL-адреса содержания фреймов?

Включите оба URL-адреса.

Frage. Можно ли использовать архиватор zip для моих файлов Sitemap, или их можно сжимать только с помощью архиватора gzip?

Используйте архиватор gzip для сжатия файлов Sitemap. Помните, что размер файла Sitemap (как в сжатом, так и в несжатом виде) не должен превышать 10 МБ.

Frage. Будет ли параметр приоритетности в XML-файле Sitemap влиять на рейтинг моих страниц в результатах поиска?

Параметр "приоритетность" в файле Sitemap используется для того, чтобы определить очередность обработки URL в пределах Вашего собственного сайта и не влияет на рейтинг страниц в результатах поиска.

Frage. Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?

Ja. XML-схема для файлов Sitemap приведена на странице http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd , а схема для файлов индекса Sitemap — на странице http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd . Дополнительную информацию о проверке файлов Sitemap см. здесь .

Frage. Куда мне обратиться, если у меня возникли другие вопросы по поводу использования протокола или процедуры отправки сведений о размещении файла Sitemap?

Обратитесь к доступной документации поисковых систем, чтобы получить дополнительную информацию относительно отправки сведений о размещении файла и о работе с файлами Sitemaps.