Das Sitemap-Paradoxon


249

Wir verwenden eine Sitemap für Stack Overflow, aber ich habe gemischte Gefühle.

Webcrawler erkennen Seiten normalerweise über Links innerhalb der Site und von anderen Sites. Sitemaps ergänzen diese Daten, damit Crawler, die Sitemaps unterstützen, alle URLs in der Sitemap abrufen und anhand der zugehörigen Metadaten mehr über diese URLs erfahren können. Die Verwendung des Sitemap- Protokolls garantiert nicht, dass Webseiten in Suchmaschinen enthalten sind, bietet jedoch Hinweise für Webcrawler, um das Crawlen Ihrer Website zu verbessern.

Aufgrund unserer zweijährigen Erfahrung mit Sitemaps ist die Sitemap von Grund auf paradox :

  1. Sitemaps sind für Websites gedacht, die nur schwer ordnungsgemäß gecrawlt werden können.
  2. Wenn Google Ihre Website nicht erfolgreich crawlen kann, um einen Link zu finden, aber in der Sitemap gefunden werden kann, wird der Sitemap-Link nicht gewichtet und nicht indiziert!

Das ist das Sitemap-Paradoxon - wenn Ihre Website (aus welchem ​​Grund auch immer) nicht richtig gecrawlt wird, hilft Ihnen die Verwendung einer Sitemap nicht weiter!

Google gibt sich alle Mühe , keine Sitemap-Garantie zu geben :

„Wir können keine Prognosen oder Garantien abgeben , wann oder ob Ihre URLs gecrawlt werden oder hinzugefügt zu unserem Index“ Zitat

"Wir können nicht garantieren, dass wir alle Ihre URLs crawlen oder indizieren. Beispielsweise können wir keine Bild-URLs crawlen oder indizieren, die in Ihrer Sitemap enthalten sind." Zitat

„Einreichen einer Sitemap nicht garantiert , dass alle Seiten Ihrer Website in den Suchergebnissen gekrochen oder enthalten sein“ Zitat

In Anbetracht der Tatsache, dass in Sitemaps gefundene Links lediglich Empfehlungen sind , während auf Ihrer eigenen Website gefundene Links als kanonisch gelten. Es scheint nur logisch , eine Sitemap zu vermeiden und sicherzustellen, dass Google und jede andere Suchmaschine dies auch können Durchsuchen Sie Ihre Website mithilfe der einfachen alten Standardwebseiten, die alle anderen Benutzer sehen.

Bis Sie getan haben , dass , und sind immer schön gespidert und gründlich , so kann Google , dass Ihr sehen eigene Website Links zu diesen Seiten, und wäre bereit , die Links zu kriechen - uh, warum brauchen wir eine Sitemap, wieder? Die Sitemap kann aktiv schädlich sein, da sie Sie davon abhält, sicherzustellen, dass Suchmaschinenspinnen Ihre gesamte Website erfolgreich crawlen können. "Oh, es ist egal, ob der Crawler es sehen kann, wir schlagen nur diese Links in die Sitemap!" Die Realität ist nach unserer Erfahrung genau das Gegenteil.

Das scheint mehr als ironisch, wenn man bedenkt, dass Sitemaps für Websites gedacht sind, die eine sehr umfangreiche Sammlung von Links oder eine komplexe Benutzeroberfläche aufweisen, die schwer zu erkennen sein kann. Erfahrungsgemäß hilft die Sitemap nicht weiter, da Google den Link auf Ihrer Website ohnehin nicht indiziert , wenn er von Google nicht gefunden wird. Wir haben dies immer wieder mit Fragen zum Stapelüberlauf bewiesen.

Liege ich falsch? Sind Sitemaps sinnvoll und verwenden wir sie nur falsch?


Ich dachte, Sitemaps wären eher ein einfacheres Werkzeug für ein einfacheres Zeitalter ... Ich dachte, der einzige Grund, eine Sitemap bereitzustellen, war heutzutage menschliche Hilfe beim Navigieren auf der Website, wenn auch technisch versierte Menschen. Ich sehe kein Problem mit "Wenn Ihre Website (aus welchem ​​Grund auch immer) nicht ordnungsgemäß gecrawlt wird, hilft Ihnen die Verwendung einer Sitemap nicht!" aber es kann nur ich sein.
Jcolebrand

3
Ich weiß zwar, dass Google den größten Teil Ihrer Zugriffe generiert. Ich denke, es ist wichtig zu verstehen, wie andere Spinnen die Sitemap zu benutzen scheinen.
MikeJ

22
@ Mikej Google ist nicht "die Masse" unseres Verkehrs, es ist 99,6% des gesamten Suchverkehrs und 87% des gesamten Verkehrs
Jeff Atwood

2
Jeff, liebe deine Beiträge immer ... Ich verwende XML-Sitemaps nur für Seiten, die Google sonst möglicherweise nicht findet. Aber ich bin wirklich enttäuscht von ihnen und den Google Webmaster-Tools. Ich denke ehrlich, dass Google gut genug ist, um verfügbare Inhalte auf einer Website zu indizieren. Kein Sinn für eine Sitemap. Nun ist eine Sitemap für die Benutzerführung eine clevere Idee. Ich mag die Web.2.0 Footer Site Maps und versuche, sie in fast jedes Design zu integrieren, für das sie geeignet sind ...
Frank

1
@ Jeff Atwood: John Mueller sagte: "Wir erfassen und indizieren ansonsten nicht verknüpfte URLs" - löst dies das Paradoxon?
Rob Olmos

Antworten:


192

Haftungsausschluss: Ich arbeite mit dem Sitemaps-Team von Google zusammen, daher bin ich etwas voreingenommen :-).

Zusätzlich zur umfassenden Verwendung von Sitemaps für Inhalte (Bilder, Videos, Nachrichten usw.), die nicht im Webindex enthalten sind, verwenden wir Informationen aus URLs, die in Sitemaps-Dateien enthalten sind, für die folgenden Hauptzwecke:

  • Entdecken neuer und aktualisierter Inhalte (ich denke, dies ist die offensichtliche und ja, wir erfassen und indizieren auch ansonsten nicht verknüpfte URLs von dort)
  • Bevorzugte URLs für die Kanonisierung erkennen (es gibt auch andere Möglichkeiten, mit der Kanonisierung umzugehen)
  • Bereitstellung einer nützlichen Anzahl indizierter URLs in den Google Webmaster-Tools (ungefähre Angaben von der Website: - Abfragen können nicht als Metrik verwendet werden)
  • Eine Grundlage für nützliche Durchforstungsfehler bereitstellen (wenn eine in einer Sitemap-Datei enthaltene URL einen Durchforstungsfehler aufweist, handelt es sich in der Regel um ein größeres Problem, das in den Webmaster-Tools separat angezeigt wird.)

Auf der Webmaster-Seite habe ich auch Sitemaps-Dateien als äußerst nützlich empfunden:

  • Wenn Sie die Sitemaps-Datei mit einem Crawler erstellen, können Sie auf einfache Weise überprüfen, ob Ihre Site gecrawlt werden kann, und aus erster Hand feststellen, welche URLs gefunden wurden. Findet der Crawler Ihre bevorzugten URLs oder ist etwas falsch konfiguriert? Steckt der Crawler irgendwo in unendlichen Räumen (z. B. endlosen Kalenderskripten) fest? Ist Ihr Server in der Lage, die Last zu bewältigen?
  • Wie viele Seiten hat Ihre Website wirklich? Wenn Ihre Sitemap-Datei "sauber" ist (keine Duplikate usw.), ist dies leicht zu überprüfen.
  • Ist Ihre Website wirklich sauber durchsuchbar, ohne dass doppelte Inhalte angezeigt werden? Vergleichen Sie die vom Googlebot hinterlassenen Serverprotokolle mit Ihrer Sitemaps-Datei. Wenn der Googlebot URLs crawlt, die nicht in Ihrer Sitemap-Datei enthalten sind, möchten Sie möglicherweise die interne Verknüpfung überprüfen.
  • Treten auf Ihrem Server Probleme mit Ihren bevorzugten URLs auf? Das Gegenprüfen des Serverfehlerprotokolls mit den Sitemaps-URLs kann sehr hilfreich sein.
  • Wie viele Ihrer Seiten sind wirklich indiziert? Wie oben erwähnt, ist diese Anzahl in den Webmaster-Tools sichtbar.

Zugegeben, für sehr kleine, statische und leicht zu durchsuchende Websites ist die Verwendung von Sitemaps aus Sicht von Google möglicherweise nicht mehr erforderlich, sobald die Website gecrawlt und indexiert wurde. Für alles andere würde ich sie wirklich empfehlen.

FWIW Es gibt einige Missverständnisse, die ich ebenfalls behandeln möchte:

  • Die Sitemap-Datei soll keine Crawlerprobleme beheben. Wenn Ihre Website nicht gecrawlt werden kann, beheben Sie dies zuerst .
  • Wir verwenden keine Sitemap-Dateien für das Ranking.
  • Durch die Verwendung einer Sitemap-Datei wird das normale Crawlen Ihrer Website nicht beeinträchtigt. Dies sind zusätzliche Informationen und kein Ersatz für das Crawlen. Ebenso bedeutet das Fehlen einer URL in einer Sitemap-Datei nicht, dass sie nicht indiziert wird.
  • Mach dir keine Sorgen um die Metadaten. Wenn Sie keine nützlichen Werte angeben können (z. B. für die Priorität), lassen Sie sie weg und machen Sie sich darüber keine Sorgen.

Sie verwenden Sitemaps für "Selbsteinstufung", richtig? Ich meine, wenn ich den Inhalt über eine Seite rangiere. Warum sonst das priorityFeld?
DisgruntledGoat

7
Das "Priority" -Element ist für uns ein relativ kleines Signal, das wir möglicherweise verwenden, wenn wir beim Crawlen auf Ihrer Website sehr eingeschränkt sind (wir verwenden es nicht für Rankingzwecke). Für die meisten Websites wird dies kein Problem sein, daher ist es in Ordnung, wenn Sie leicht nützliche Werte bereitstellen können, aber nichts, worüber Sie den Schlaf verlieren können, wenn Sie dies nicht können. Wenn Sie für dieses und andere Metadatenelemente keine nützlichen Werte angeben können, lassen Sie die Elemente einfach ganz weg (verwenden Sie keine "Standard" -Werte).
John Mueller

Vielen Dank für diese sehr informative Antwort. Ich werde die Aktualisierung meiner Sitemap einstellen und den RSS-Feed ab sofort als Sitemap verwenden.
Stephan Müller

1
Sind 100 Ebenen tiefe Informationen ein "Problem der Durchforstbarkeit"? Zum Beispiel, wenn ich einen Webshop besitze und eine lange Liste von Produkten in einer Kategorie vorhanden ist (z. B. 3000 Produkte). Die Liste ist paginiert und hat 200 Seiten. Natürlich zeige ich nicht alle Links. Eher wie 1 2 3 ... 22 **23** 24 ... 198 199 200. Um ein Produkt auf Seite 100 zu finden, müssten Sie ungefähr 100 Links durchgehen. Oder benutzen Sie die Suchleiste. Würde Googlebot das crawlen oder würde es nach ungefähr 20 Levels aufgeben? Wäre eine Sitemap hier die passende Lösung?
Vilx

1
@Martijn - OK, aber was ist, wenn Sie 200 Mal auf "Weiter" klicken müssen, um alles zu sehen? Klickt die Spinne fleißig weg oder gibt sie nach etwa 30 auf und sagt "Scheiß drauf, ich folge keiner Gliederkette, die so lang ist"?
Vilx

40

Wenn Sie wissen, dass Sie eine gute Website-Architektur haben und Google Ihre Seiten natürlich finden würde, ist der einzige Vorteil, den ich kenne, eine schnellere Indizierung. Wenn Ihre Website schnell genug für Sie indiziert wird, ist dies nicht erforderlich.

In diesem Artikel aus dem Jahr 2009 testete ein Gentlemen, wie schnell Google seine Website mit und ohne Sitemap gecrawlt hat. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers

Meine Faustregel lautet: Wenn Sie etwas Neues und Ungetestetes starten, möchten Sie sehen, wie Google Ihre Website crawlt, um sicherzustellen, dass nichts repariert werden muss. Senden Sie es also nicht, wenn Sie Änderungen vornehmen und dies möchten Wenn Sie andere zeitkritische Informationen haben, wie z. B. aktuelle Nachrichten, dann senden Sie diese an Google, da Sie alles tun möchten, um sicherzustellen, dass Sie als erster von Google erkannt werden. Andernfalls ist dies eine Frage der Präferenz.


Würde ein RSS-Feed nicht dasselbe leisten?
Virtuosi Media

Es gibt sicherlich eine Menge Dinge, die Sie mit RSS-Feeds tun können, um die Indizierung zu verbessern. Die Daten in dem Artikel, den ich oben verlinkt habe, lassen jedoch darauf schließen, dass eine Sitemap effektiver ist als nur ein RSS-Feed.
Joshak

15

Ich vermute: Für Google sind Sitemaps erforderlich, um Updates so schnell wie möglich nachverfolgen zu können. Nehmen wir beispielsweise an, Sie haben einen neuen Inhalt zu einer tiefen Position Ihrer Website hinzugefügt, die mehr als 10-20 Klicks von Ihrer Homepage entfernt benötigt. Für Google ist es weniger wahrscheinlich, dass diese neue Seite in kurzer Zeit erreicht wird. Stattdessen wird deren Existenz angekündigt , bis ein Pfad zu dieser Seite vollständig festgelegt ist. Schließlich wird der PageRank nicht sofort berechnet, sondern es wird Zeit benötigt, um das Benutzerverhalten und dergleichen zu bewerten. Warum sollte die Suchmaschine bis dahin keine Seite mit neuem Inhalt crawlen und indizieren?


4
Websites wie stackoverflow werden so häufig gecrawlt, dass ich wetten möchte, dass sie schneller sind als die Verwendung einer Sitemap.
John Conde

3
@john, das ist immer noch die einzige rationale Erklärung, die mir einfällt, was eine Sitemap tatsächlich für Sie tun könnte. "Es kann nicht schaden" ist ein weit verbreitetes Refrain, aber das bloße Vorhandensein einer Sitemap ist schädlich (zusätzliche Komplexität usw.). Wenn es also nicht hilft, ist es immer noch ein Netto-Negativ und es muss gehen.
Jeff Atwood

@ Jeff Ich war nicht anderer Meinung. Ich sagte nur, SO passte nicht in diese Form.
John Conde

2
Dies wird durch den von Joshak bereitgestellten Link bestätigt: seomoz.org/blog/do-sitemaps-effect-crawlers
Jeff Atwood

@ Jeff Atwood "@ John still, ..." das ist der Punkt, den ich machen wollte. Anfangs war es vorteilhaft, aber jetzt brauchst du es nicht mehr. Also, warum versuchst du immer noch, es zu haben?
Jcolebrand

9

Sitemaps sind unglaublich wertvoll, wenn Sie sie richtig verwenden.

Zunächst einmal dient die Tatsache, dass Google angibt, dass es sich um Hinweise handelt, nur dazu, a) sicherzustellen, dass Webmaster nicht den falschen Eindruck haben, Sitemap = Indexierung, und b) Google die Möglichkeit zu geben, bestimmte Sitemaps zu ignorieren, wenn sie als unzuverlässig eingestuft werden ( aka lastmod ist das aktuelle Datum für alle URLs an jedem Tag, an dem auf sie zugegriffen wird.)

Im Allgemeinen mag und konsumiert Google jedoch Sitemaps (in der Tat finden sie manchmal ihre eigenen und fügen sie den Google Webmaster-Tools hinzu). Warum? Es erhöht die Effizienz, mit der sie kriechen können.

Anstatt an einer Startsite zu beginnen und das Web zu crawlen, können sie einen angemessenen Betrag ihres Crawling-Budgets auf der Grundlage der übermittelten Sitemaps einer Site zuweisen. Sie können auch einen umfangreichen Verlauf Ihrer Website mit den zugehörigen Fehlerdaten (500, 404 usw.) erstellen.

Von Google:

"Der Googlebot durchsucht das Web, indem er Links von einer Seite zur anderen verfolgt. Wenn Ihre Website also nicht gut verlinkt ist, können wir sie möglicherweise nur schwer finden."

Was sie nicht sagen, ist, dass das Crawlen des Webs zeitaufwändig ist und sie lieber einen Spickzettel (aka Sitemap) haben.

Sicher, Ihre Website ist aus Crawl-Sicht in Ordnung. Wenn Sie jedoch neuen Inhalt einführen möchten, können Sie diesen Inhalt schneller in eine Sitemap mit hoher Priorität kopieren, um ihn zu crawlen und zu indizieren.

Und das funktioniert auch bei Google, da neue Inhalte schnell gefunden, gecrawlt und indiziert werden sollen. Auch wenn Sie nicht der Meinung sind, dass Google beim Dschungel-Ansatz den ausgetretenen Pfad gegenüber der Machete bevorzugt, sind Sitemaps aus einem anderen Grund wertvoll: dem Tracking.

Insbesondere mit einem Sitemap-Index (http://sitemaps.org/protocol.php#index) können Sie Ihre Website in Abschnitte aufteilen - Sitemap nach Sitemap. Auf diese Weise können Sie die Indexierungsrate Ihrer Website abschnittsweise anzeigen.

Ein Abschnitt oder Inhaltstyp weist möglicherweise eine Indexierungsrate von 87% auf, während ein anderer eine Indexierungsrate von 46% aufweist. Es ist dann Ihre Aufgabe, herauszufinden, warum.

Um die Sitemaps optimal zu nutzen, sollten Sie das Crawlen von Googlebot (und Bingbot) auf Ihrer Website (über Weblogs) nachverfolgen, diese mit Ihren Sitemaps abgleichen und dann dem gesamten Datenverkehr folgen.

Schlafen Sie nicht auf Sitemaps, sondern investieren Sie in sie.


2
Ich bin anderer Meinung, Sitemaps hatten früher einen Zweck und jetzt sind sie meiner ehrlichen Meinung nach überholt. Wenn Ihre Website crawlbar ist, werden diese Links gefunden. Mithilfe von RSS und Social Media kann Google Seiten noch schneller finden und indizieren.
Simon Hayter

8

Mit den Worten von Google: "In den meisten Fällen profitieren Webmaster von der Übermittlung der Sitemap, und in keinem Fall werden Sie dafür bestraft."

Ich stimme jedoch zu, dass das Beste, was Sie tun können, wenn Ihre Websiteseiten in Suchmaschinen angezeigt werden sollen, darin besteht, sicherzustellen, dass sie von der eigentlichen Website aus gecrawlt werden können.


5
Es gibt immer noch eine mentale Kosten, wie in der wahrgenommenen "Sicherheit", Links zu haben, die garantiert indiziert werden, unabhängig vom Crawling-Status Ihrer Website. Dies ist nach unserer Erfahrung nicht wahr.
Jeff Atwood

7

Ich glaube, dass Suchmaschinen die Sitemap nicht so oft verwenden, um Seiten zu finden, sondern um zu optimieren, wie oft sie sie auf Aktualisierungen überprüfen. Sie schauen <changefreq>und <lastmod>. Google durchsucht wahrscheinlich sehr oft die gesamte Website (überprüfen Sie Ihre Protokolle!), Aber nicht alle Suchmaschinen haben die Ressourcen, um dies zu tun (Hat jemand Blekko ausprobiert ?). In jedem Fall, da es keine Strafe für die Verwendung gibt und sie automatisch und einfach erstellt werden können, würde ich es weitermachen.


4
Ich halte das <priority>Feld für ziemlich wichtig, um sie wissen zu lassen, welche Seiten am wichtigsten sind. Zum Beispiel haben Sie auf Stack Overflow Hunderte von Tag- und Benutzerseiten, die in Ordnung sind, aber bei weitem nicht so wichtig wie die Fragen selbst. Wenn die Sitemap die Fragenpriorität auf 1 setzt und alles andere niedriger ist, werden die Fragen mit größerer Wahrscheinlichkeit über andere Seiten indiziert.
DisgruntledGoat

6

Wenn Sie sich für dieses Thema interessieren, lesen Sie dieses großartige Google-Dokument: http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (April 2009). Lesen Sie das gesamte Dokument, nicht nur den Blogpost .

aus dem Papier

  • ok, im Grunde kämpfte Google mit der gleichen Frage.
  • Sie legen nicht offen, wie sie den Wert innerhalb der Sitemap bestimmen, erwähnen jedoch das Konzept eines virtuellen Links von der Startseite zur Sitemap.
  • viele andere interessante Sachen

Aber ja, die Sitemap wird hauptsächlich zum Auffinden verwendet (der Vorgang, bei dem Google Ihre Inhalte entdeckt), nicht zur Wertermittlung. Wenn Sie Schwierigkeiten mit der Entdeckung haben, verwenden Sie eine Sitemap. Die Entdeckung ist eine Voraussetzung für das Crawlen, berührt jedoch nicht die Wertermittlung.

meiner Erfahrung nach

  • Es gibt eine Menge Websites, die nur HTML- und XML-Sitemaps zum Verknüpfen ihrer Seiten verwenden
  • und von diesen ist die XML-Sitemap viel viel besser gecrawlt als die HTML-Sitemap. (Ich habe mir einige wirklich große angesehen)
  • Es gibt sogar sehr erfolgreiche Websites, die nur XML-Sitemap verwenden.

wenn ich eine SEO-Strategie für eine Website mit mehr als einer halben Million Seiten implementiere, die ich anstrebe

  • Startseiten
  • sitemap.xml
  • Startseite

Alles andere ist nur "Quatsch" - ja, andere Dinge haben möglicherweise einen positiven SEO-Wert, aber definitiv einen negativen Wert: Es erschwert die Verwaltung der Website. (ps: zur wertermittlung verknüpfe ich die landingpages auf sinnvolle weise (große wirkung), aber das ist schon der zweite schritt).

Zu Ihrer Frage: Bitte verwechseln Sie nicht das Erkennen, Crawlen, Indizieren und Ranking. Sie können alle separat verfolgen und alle separat optimieren. und Sie können die Erkennung und das Crawlen mithilfe einer hervorragenden (dh Echtzeit-) Sitemap erheblich verbessern.


5

Sitemaps können deinen Arsch retten.

Auf einer meiner Websites habe ich eine große Anzahl von Links, mit denen ich verhindern kann, dass Suchmaschinen spinnen. Kurz gesagt, Google hat JS in meinem Forum falsch interpretiert und viele 500 und 403 Antwortcodes ausgelöst, von denen ich glaubte, dass sie sich auf die Position der Website auswirken. Ich habe das umgangen, indem ich die problematischen URLs über robots.txt ausgeschlossen habe.

Eines Tages habe ich ein Durcheinander begangen und etwas getan, das Google daran gehindert hat, einige Seiten auf dieser Website zu crawlen, die ich wirklich indizieren wollte. Aufgrund der Ausschlüsse im Forum enthielt der Fehlerbereich der Webmaster-Tools für "Restricted by robots.txt" mehr als 4000 Seiten. Daher hätte ich diesen Fehler erst aufgegriffen, als es viel zu spät war.

Da sich alle "wichtigen" Seiten meiner Website in Sitemaps befinden, konnte ich dieses Problem in der speziellen Fehlerkategorie der Webmaster-Tools für Probleme mit Seiten in Sitemaps schnell erkennen.

Abgesehen davon kann ich auch einen Sitemap-Index verwenden, um die Indexierungsqualität verschiedener Abschnitte meiner Websites zu bestimmen, wie von @AJ Kohn erwähnt.


4

Ich bin nicht selbst darauf gestoßen, aber die meisten meiner Projekte sind Anwendungen oder Websites, für die ansonsten Benutzerkonten erforderlich sind, sodass die Indizierung durch Suchmaschinen kein Schwerpunkt ist.

Das heißt, ich habe schon gehört, dass SEO Sitemaps im Grunde genommen unbrauchbar gemacht hat. Wenn Sie sich das Protokoll ansehen, ist es eine Art "Ehrensystem", das angibt, wie oft sich eine Seite ändert und welche relative Priorität jede Seite hat. Es liegt auf der Hand, dass ein Dutzend SEO-Unternehmen die Felder missbrauchen - jede Seite hat höchste Priorität! Jede Seite wechselt stündlich! - und Sitemaps effektiv unbrauchbar gemacht.

In diesem Artikel aus dem Jahr 2008 heißt es im Grunde genommen: Die Sitemap ist ziemlich nutzlos, und Sie sollten den zu indizierenden Inhalt optimieren und die Sitemap nicht mehr verwenden.


3

Lass es kriechen.

Ich mache folgendes:

  1. Machen Sie die Site auf die alte Art und Weise crawlbar.
  2. Stellen Sie sicher, dass ich eine robots.txt mit einer Sitemap-Angabe darauf habe.
  3. XML-Sitemap erstellen, aber nicht senden. Lassen Sie den Crawler es als Teil seines Erkennungs- und Indizierungsprozesses nach Bedarf erkennen und verwenden.

Ich generiere eine erweiterte XML-Datei, die als Basis für viele Dinge dient:

  • Generierung der HTML-Sitemap
  • Hilf der 404 (nicht gefunden) Seite
  • Helfen Sie mit anderen kleinen Aufgaben, wie dem Bilden von Semmelbröseln oder dem Abrufen von Metadaten in meinem Fassadenmuster für eine Seite.

Daher habe ich all das, warum sollte ich nicht auch eine XML-Sitemap bereitstellen und den Crawler tun lassen, was er tun möchte, wenn er es tun möchte?


3

Jeff, ich habe keine Ahnung von Stackoverflow, weil ich noch nie in meinem Leben die Gelegenheit hatte, Webmaster einer so großen und häufig aktualisierten Website zu sein.

Für kleine Websites, die sich nicht häufig ändern, halte ich Sitemap aus zwei Gründen für sehr nützlich (nicht, dass Sitemap das Wichtigste ist, aber sehr nützlich, ja):

  1. Die Site wird schnell gecrawlt (derselbe Grund wurde oben von Joshak erklärt ) und in meiner kleinen Erfahrung habe ich dies oft bei kleinen Sites bemerkt (bis zu 30/50 Seiten).

  2. Nach einigen Wochen habe ich eine Sitemap eingereicht. Ich schaue in "Google Webmaster-Tools - Sitemaps" nach und sehe die Anzahl der in der Sitemap eingereichten URLs im Vergleich zur Anzahl der URLs im Webindex . Wenn ich sehe, dass sie gleich sind, dann gut. Ansonsten kann ich auf meinen Webseiten sofort nachlesen, welche Seiten nicht indiziert werden und warum.


3

Dies wurde (zuerst?) Von Randfish bei SEOmoz im guten alten Jahr 2007 geschrieben. Das erste Mal kam er zu den gleichen Schlussfolgerungen, aber dann war es soweit ... und es war vorbei.

Seit Januar 2009 hat er dem Artikel einen Nachtrag hinzugefügt, der besagt, dass alle möglichen Nachteile durch die insgesamt positiven Ergebnisse der Erstellung, Überprüfung und Übermittlung von Sitemaps aufgewogen werden.

Update 5. Januar 2009 - Ich habe meine Meinung zu diesem Ratschlag tatsächlich erheblich geändert. Ja, Sitemaps können immer noch architektonische Probleme verschleiern, aber angesichts der Erfahrung, die ich in den letzten 1,5 Jahren gesammelt habe, empfehle ich jetzt allen unseren Kunden (und fast allen anderen, die darum bitten), Sitemaps einzureichen. Die Vorteile in Bezug auf Crawling, Indexierung und Traffic überwiegen einfach die Nachteile.


2

Ich glaube, SiteMaps dienen heutzutage nur zwei Zwecken:

  • Mit ihnen können Sie die Häufigkeit von Spidering reduzieren, um die Serverlast zu verringern. Dies sollte für die meisten Websites kein Problem darstellen.
  • Sie können dabei helfen, das zu verstärken, was die Suchmaschine bereits über Sie weiß. Das Auflisten der Seitennamen und offensichtlich das Hinzufügen einer geeigneten Gewichtung zu jeder Seite hilft der Suchmaschine, ihre eigenen Metriken für das Ranking Ihrer Site-Architektur zu validieren.

1

KEINE SITEMAPS VERWENDEN

Sitemaps sind hauptsächlich für Sites gedacht, die keine Timestamp-Indizes und -Knoten haben. SE übernimmt beides für den Kerninhalt. Wenn Sie also eine Sitemap haben, wird der Crawler langsamer Es fehlen die Metadaten der Kernindizes. Auf der anderen Seite habe ich keine wirkliche Ahnung, wie Google seine Bots erstellt. Ich weiß nur, ob ich zu Bot SE gehen würde. Ich würde die Sitemap NICHT verwenden. Außerdem bemerken manche Websites nicht einmal, dass ihre Sitemaps alle%! @ $ Sind - und wenn Sie ein Profil auf einer Sitemap erstellt haben, funktioniert das plötzlich nicht mehr und Sie müssen ein neues Profil auf der Website erstellen echte Seite.

Sie haben also Recht - VERWENDEN SIE KEINE SITEMAPS!

TIPP: Eine Sache, die Sie dennoch tun sollten, ist, die Semantik der Tags so lange wie möglich gleich zu halten. Das heißt, wenn in "Asked One Hour Ago" Metadaten wie die folgenden eingebettet sind:

title="2010-11-02 00:07:15Z" class="relativetime"

Ändern Sie niemals den String-Namen relativetime, es sei denn, die Bedeutung der Daten in titlehat sich geändert. NOCH NIE... :-)


1

Ich habe kürzlich eine Site umstrukturiert, an der ich noch arbeite. Da es keine gute Möglichkeit gab, 500.000 Seiten zu verknüpfen, um den Nutzern zu helfen, entschied ich mich, eine XML-Sitemap zu verwenden, diese an Google zu senden und stattdessen die Websitesuche zu verwenden. Google hatte kein Problem damit, meine Website früher zu indizieren. Seit dem Hinzufügen der Sitemap ist Google jedoch sehr aggressiv darin, meine Website zu spinnen und die Seiten extrem schnell zu indizieren. Google hat die Sitemap verwendet, um neue Seiten zu finden (ca. 3300 pro Woche) und aktualisierte Seiten erneut aufzurufen. Es war ein echter Gewinn in meinem Buch. Ich möchte immer noch einen neuen Weg finden, um meine Seiten zu verlinken und AJAX zum Nachschlagen zu verwenden, aber das ist ein Projekt für einen anderen Tag. So weit, ist es gut! Es war eine gute Lösung für mich. Alles in allem habe ich gewonnen und nicht verloren. Das ist interessant, da ich immer der Meinung war, dass Sitemaps nützlicher sein könnten, aber durch ihr Design eingeschränkt sind.


0

Ich habe gehört, dass Sitemaps Ihre Seiten schneller in den Zusatzindex stellen. Aber ich habe noch nicht einmal den Zusatzindex gehört, der schon seit Ewigkeiten erwähnt wird, daher wird er möglicherweise nicht mehr verwendet.

PS, falls meine Aussage nicht klar genug ist, ist (oder war) es eine SCHLECHTE Sache, im Ergänzungsindex zu sein ... daher ist (oder war) eine Sitemap SCHLECHTE.


0

Wir verwenden Sitemaps (die nicht an Suchmaschinen gesendet, aber verlinkt werden robots.txt), um sicherzustellen, dass die Homepage die höchste aufweist <priority>. Ich bin mir nicht sicher, ob sie viel anderen Nutzen haben.


0

Ich bin nicht einverstanden, dass Google die Nur-Sitemapped-Links nicht indiziert. Ich habe zahlreiche Websites, deren Seiten nur über Sitemaps erreichbar sind, und google indiziert sie ohne Probleme. Ich kann dafür viele Beispiele nennen.


Sind diese Seiten auch außerhalb Ihrer Website verlinkt ?
Jeff Atwood

0

Eine gut erstellte Website benötigt keine Sitemap, obwohl sie unsere Berichterstattung und unser Ranking unterstützen und einen kleinen zusätzlichen Wert wie Priorität, Aktualisierungshäufigkeit usw. hinzufügen kann. Sie können einer Suchmaschine sagen, hey ... Ich habe diese Seite aktualisiert Irgendwo in der Mitte meiner Site, ohne dass ein vollständiger Crawl erforderlich ist. Ich habe mir die Crawl-Muster noch nie angesehen, aber man würde hoffen, dass es hilft.

Das wahre Plus für mich sind jedoch die Webmaster-Tools und der Einblick, den Sie in die Sichtbarkeit Ihrer Website und Ihrer Benutzer erhalten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.