Neben robots.txt gehorchen, gehorchen nofollow
und noindex
in <meta>
Elementen und Links:
Viele glauben, dass robots.txt nicht der richtige Weg ist, um die Indizierung zu blockieren, und haben aus diesem Grund viele Websitebesitzer angewiesen, sich auf das <meta name="robots" content="noindex">
Tag zu verlassen, um Webcrawlern mitzuteilen, dass sie eine Seite nicht indizieren sollen.
Wenn Sie versuchen, ein Diagramm der Verbindungen zwischen Websites (ähnlich wie PageRank) zu erstellen, soll
(und <meta name="robots" content="nofollow">
) bedeuten, dass die Quellwebsite der Zielwebsite nicht genug vertraut, um sie ordnungsgemäß zu unterstützen. Während Sie die Zielsite indizieren können, sollten Sie die Beziehung zwischen den beiden Sites nicht speichern.
SEO ist eher eine Kunst als eine echte Wissenschaft und wird von vielen Menschen praktiziert, die wissen, was sie tun, und von vielen Menschen, die die Executive Summaries von Menschen lesen, die wissen, was sie tun. Sie werden auf Probleme stoßen, bei denen Sie von Websites blockiert werden, wenn Sie Dinge tun, die für andere Websites aufgrund einer Regel, die jemand belauscht oder in einem Blog-Post auf SEOmoz gelesen hat, die möglicherweise richtig interpretiert wird oder nicht.
Aufgrund dieses menschlichen Elements gelten Sie, sofern Sie nicht Google, Microsoft oder Yahoo! sind, als böswillig, sofern nichts anderes nachgewiesen wurde. Sie müssen besonders vorsichtig sein, um so zu handeln, als ob Sie keine Bedrohung für einen Websitebesitzer darstellen, und entsprechend der Vorgehensweise eines potenziell böswilligen (aber hoffentlich harmlosen) Crawlers vorgehen:
- Stoppen Sie das Crawlen einer Website, sobald Sie feststellen, dass Sie blockiert sind: 403 / 401s auf Seiten, von denen Sie wissen, dass sie funktionieren, Throttling, Timeouts usw.
- Vermeiden Sie erschöpfende Crawls in relativ kurzen Zeiträumen: Crawlen Sie einen Teil der Site und kehren Sie später (einige Tage später) zurück, um einen anderen Teil zu crawlen. Mach keine parallelen Anfragen.
- Vermeiden Sie das Crawlen von potenziell sensiblen Bereichen
/admin/
, z. B. URLs mit darin.
Selbst dann wird es ein harter Kampf, wenn Sie nicht auf Black-Hat-Techniken wie UA-Spoofing oder absichtliches Maskieren Ihrer Crawling-Muster zurückgreifen: Viele Websitebesitzer blockieren aus den oben genannten Gründen einen unbekannten Crawler auf Sicht, anstatt ihn zu übernehmen die Chance, dass es jemanden gibt, der nicht versucht, seine Website zu "hacken". Bereite dich auf eine Menge Fehler vor.
Eine Möglichkeit, das negative Image eines unbekannten Crawlers zu bekämpfen, besteht darin, in Ihrem User-Agent-String zu verdeutlichen, wer Sie sind:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Wo http://example.com/aarobot.html
erklärt, was Sie erreichen wollen und warum Sie keine Bedrohung sind. Diese Seite sollte ein paar Dinge haben:
- Informationen zur direkten Kontaktaufnahme
- Informationen darüber, was der Crawler sammelt und warum er es sammelt
- Informationen zum Deaktivieren und Löschen von erhobenen Daten
Letzteres ist der Schlüssel: Ein gutes Opt-out ist wie eine Geld-zurück-Garantie ™ und führt zu einem unzumutbaren Goodwill. Es sollte menschlich sein: ein einfacher Schritt (entweder eine E-Mail-Adresse oder im Idealfall ein Formular) und umfassend (es sollte keine "Fallstricke" geben: Deaktivieren bedeutet, dass Sie ausnahmslos aufhören zu crawlen).