Antworten:
Kein Robots Exclusion Protocol konform Suchmaschine kann kriechen alle in robots.txt nicht zulässig URL, unabhängig davon , wo es sonst aufgeführt werden könnten.
Allerdings ist Google nicht unbedingt kriechen Ihre URLs , um zu indizieren. Wenn sie der Meinung sind, dass sie über ausreichende Beweise dafür verfügen, dass sich tatsächlich eine Seite unter dieser URL befindet (und eine Sitemap-Liste sehr wahrscheinlich als solche Beweise gilt), können sie einfach beschließen, die URL ohne Inhalt zu ihrem Index hinzuzufügen. So zitieren Sie die Hilfeseiten der Google Webmaster-Tools :
"Während Google den Inhalt von Seiten, die von robots.txt blockiert werden, nicht crawlt oder indiziert, können wir die URLs dennoch indizieren, wenn wir sie auf anderen Seiten im Web finden. Infolgedessen die URL der Seite und möglicherweise auch andere." Öffentlich verfügbare Informationen wie Ankertext in Links zur Website oder der Titel aus dem Open Directory-Projekt (www.dmoz.org) können in den Google-Suchergebnissen angezeigt werden. "
Solche Seiten können als Suchergebnisse angezeigt werden, z. B. für Wörter, die in der URL selbst enthalten sind, oder für Wörter, die in Links verwendet werden, die auf die Seite verweisen.
Wenn Sie also beide Liste eine Seite in einer Sitemap und disallow es in robots.txt, ist es wahrscheinlich , dass Google Willen Index der URL dieser Seite - aber nicht dessen Inhalt.
Robots.txt definiert, welche konformen Bots angefordert werden dürfen oder nicht. Selbst wenn ein bestimmter Link in einer Sitemap vorhanden ist, darf ein Bot ihn nicht anfordern, wenn die robots.txt dies nicht zulässt.
Denken Sie daran, dass Sitemaps nicht erforderlich sind. Selbst wenn eine bereitgestellt wird, können Crawler URLs ignorieren und solche, die nicht vorhanden sind, crawlen. Wenn dies in den Google Webmaster-Tools angezeigt wird, wird angezeigt , dass nicht alle URLs in einer Sitemap gecrawlt werden und wenn einige URLs gerootet werden .
Itais Antwort ist richtig, daher gibt es nichts Wichtiges, als eine Antwort auf Ihre spezielle Frage ...
Eine Sitemap kann eine robots.txt nicht übertreffen, eine Sitemap enthält keine Anweisungen / Anweisungen für Crawler auf einer Website. Sie sind nicht einmal vergleichbar. Wenn Sie Roboter angewiesen haben, nicht zu besuchen / zu folgen, besuchen /foo
Bots, die Ihren Roboteranweisungen folgen, dieses Verzeichnis einfach nicht, unabhängig davon, welchen Weg sie dorthin genommen haben (Sitemap oder auf andere Weise).
In Google Webmaster: In Ihrer XML-Sitemap wird ein Fehler angezeigt: "Sie haben einen Link in Ihre robots.txt-Datei eingefügt, der das Crawlen verhindert. Google bevorzugt die robots.txt-Datei anstelle der Sitemap."