Robots.txt vs Sitemap - Wer gewinnt in einem Konflikt?

8

Wenn ich das Verzeichnis / foo in robots.txt blockiere, meine XML-Sitemap jedoch URLs mit / foo enthält, werden die URLs in der Sitemap von Google und anderen Suchmaschinen erfasst? Mit anderen Worten, trumpft die Sitemap robots.txt? Ich denke schon, bin mir aber nicht sicher.

robots.txt xml-sitemap

— Nathan
quelle

12

Kein Robots Exclusion Protocol konform Suchmaschine kann kriechen alle in robots.txt nicht zulässig URL, unabhängig davon , wo es sonst aufgeführt werden könnten.

Allerdings ist Google nicht unbedingt kriechen Ihre URLs , um zu indizieren. Wenn sie der Meinung sind, dass sie über ausreichende Beweise dafür verfügen, dass sich tatsächlich eine Seite unter dieser URL befindet (und eine Sitemap-Liste sehr wahrscheinlich als solche Beweise gilt), können sie einfach beschließen, die URL ohne Inhalt zu ihrem Index hinzuzufügen. So zitieren Sie die Hilfeseiten der Google Webmaster-Tools :

"Während Google den Inhalt von Seiten, die von robots.txt blockiert werden, nicht crawlt oder indiziert, können wir die URLs dennoch indizieren, wenn wir sie auf anderen Seiten im Web finden. Infolgedessen die URL der Seite und möglicherweise auch andere." Öffentlich verfügbare Informationen wie Ankertext in Links zur Website oder der Titel aus dem Open Directory-Projekt (www.dmoz.org) können in den Google-Suchergebnissen angezeigt werden. "

Solche Seiten können als Suchergebnisse angezeigt werden, z. B. für Wörter, die in der URL selbst enthalten sind, oder für Wörter, die in Links verwendet werden, die auf die Seite verweisen.

Wenn Sie also beide Liste eine Seite in einer Sitemap und disallow es in robots.txt, ist es wahrscheinlich , dass Google Willen Index der URL dieser Seite - aber nicht dessen Inhalt.

— Ilmari Karonen
quelle

Das würde Ihre Antwort also mit Ja statt mit Nein beantworten, nicht wahr? :) Weil es die URLs aufnimmt, obwohl das Verzeichnis in robots.txt blockiert ist, und Sie scheinen damit einverstanden zu sein.

— Henrik Erlandsson

3

Robots.txt definiert, welche konformen Bots angefordert werden dürfen oder nicht. Selbst wenn ein bestimmter Link in einer Sitemap vorhanden ist, darf ein Bot ihn nicht anfordern, wenn die robots.txt dies nicht zulässt.

Denken Sie daran, dass Sitemaps nicht erforderlich sind. Selbst wenn eine bereitgestellt wird, können Crawler URLs ignorieren und solche, die nicht vorhanden sind, crawlen. Wenn dies in den Google Webmaster-Tools angezeigt wird, wird angezeigt , dass nicht alle URLs in einer Sitemap gecrawlt werden und wenn einige URLs gerootet werden .

— Itai
quelle

3

Itais Antwort ist richtig, daher gibt es nichts Wichtiges, als eine Antwort auf Ihre spezielle Frage ...

Eine Sitemap kann eine robots.txt nicht übertreffen, eine Sitemap enthält keine Anweisungen / Anweisungen für Crawler auf einer Website. Sie sind nicht einmal vergleichbar. Wenn Sie Roboter angewiesen haben, nicht zu besuchen / zu folgen, besuchen /fooBots, die Ihren Roboteranweisungen folgen, dieses Verzeichnis einfach nicht, unabhängig davon, welchen Weg sie dorthin genommen haben (Sitemap oder auf andere Weise).

— Zigojacko
quelle

Ähm ... Dies ist, was Google in seiner Dokumentation dazu sagt, wie sie mit dem Crawlen umgehen. [absoluteURL] verweist auf eine Sitemap, eine Sitemap-Indexdatei oder eine entsprechende URL. Die URL muss sich nicht auf demselben Host wie die Datei robots.txt befinden. Möglicherweise sind mehrere Sitemap-Einträge vorhanden. Als Nicht-Gruppenmitgliedsdatensätze sind diese nicht an bestimmte Benutzeragenten gebunden und können von allen Crawlern befolgt werden, sofern sie nicht unzulässig sind .

— Zigojacko

3

Wenn Google eine robots.txt-Datei ordnungsgemäß verarbeiten kann, übertrifft eine in einer Sitemap-Datei angegebene URL niemals eine gültige Disallow-Direktive in der robots.txt-Datei. Eine URL, deren Crawlen nicht zulässig ist, sollte von Googlebot nicht gecrawlt werden.

— John Mueller

0

In Google Webmaster: In Ihrer XML-Sitemap wird ein Fehler angezeigt: "Sie haben einen Link in Ihre robots.txt-Datei eingefügt, der das Crawlen verhindert. Google bevorzugt die robots.txt-Datei anstelle der Sitemap."

— Asif Faridi
quelle