Hier gibt es wirklich zwei Probleme:
- Wird der
robots.txt
auf Ihrer Website nicht zulassen (Block) Wayback Ihre Website von kriecht.
- Wird Wayback Ihre Website crawlen?
Zu Punkt 1:
Wie andere gesagt haben, lautet der korrekte Eintrag für robots.txt:
User-agent: ia_archiver
Disallow:
Denken Sie daran, dass es eine Weile dauern kann (vielleicht eine lange Zeit), bis Wayback alle Änderungen bemerkt, die Sie an robots.txt vorgenommen haben.
So überprüfen Sie, ob Wayback robots.txt
auf Ihrer Website das Crawlen Ihrer Website ermöglicht:
- Gehen Sie zu dieser URL: https://archive.org/web/
- Geben Sie in das Feld oben auf der Seite die URL einer Seite Ihrer Site ein und klicken Sie auf die
"Browse History"
Schaltfläche.
- Oder geben Sie in das Feld unter "Seite jetzt speichern" (derzeit unten rechts) die URL einer Seite Ihrer Site ein und klicken Sie auf die
"Save Page"
Schaltfläche.
An diesem Punkt sollten Sie 1 von 3 Dingen sehen:
- Es wird eine Fehlermeldung angezeigt, die angibt, dass Wayback aufgrund von "robots.txt" nicht auf Seiten dieser Site zugreifen kann.
- Sie sehen den "Kalender" der historischen Speicherpunkte für die Seite auf Ihrer Site. In diesem Fall wissen Sie, dass Wayback NICHT daran gehindert wird, Ihre Site zu crawlen.
- Oder Sie sehen eine Meldung, dass Wayback kein Archiv dieser Seite hat, und ein Angebot, auf einen Link zu klicken, um die Seite zu Wayback hinzuzufügen. Auch in diesem Fall wissen Sie, dass Wayback NICHT daran gehindert wird, Ihre Website zu crawlen.
Nun zu Punkt 2:
Wird Wayback Ihre Website crawlen?
Nur weil Sie Wayback erlauben , Ihre Site zu crawlen, bedeutet dies nicht, dass sie (jemals) Ihre Site crawlen.
Laut den Wayback-FAQ (Hervorhebung hinzugefügt):
Ein Großteil unserer archivierten Webdaten stammt aus unseren eigenen Crawls oder aus den Crawls von Alexa Internet. Keine der beiden Organisationen hat ein "Meine Website jetzt crawlen!" Einreichungsprozess. Die Crawls von Internet Archive neigen dazu, Websites zu finden, die gut mit anderen Websites verknüpft sind . Der beste Weg, um sicherzustellen, dass wir Ihre Website finden, besteht darin, sicherzustellen, dass sie in Online-Verzeichnissen enthalten ist und dass ähnliche / verwandte Websites auf Sie verlinken.
Alexa Internet verwendet seine eigenen Methoden, um Websites zum Crawlen zu ermitteln. Es kann hilfreich sein, die kostenlose Alexa-Symbolleiste zu installieren und die Website zu besuchen, die gecrawlt werden soll, um sicherzustellen, dass sie davon erfahren.
Unabhängig davon, wer die Site crawlt, sollten Sie sicherstellen, dass die 'robots.txt'-Regeln Ihrer Site und die META-Roboteranweisungen auf der Seite Crawler nicht anweisen, Ihre Site zu meiden.
Update: 09. Mai 2017
Andere haben Kommentare / Antworten hinterlassen, die darauf hinweisen, dass Archive.org robots.txt nicht mehr berücksichtigt. Vielleicht ist dies ein "work in progress" und es wird irgendwann der Fall sein, aber ich habe dieses neue Verhalten noch nicht gesehen.
Der Fall hierfür scheint aus diesem Artikel zu stammen: Robots.txt: ROBOTS.TXT IS A SUICIDE NOTE von archiveteam.org
. Während diese Seite wenig oder gar nichts Gutes über "Robots.txt" zu sagen hat, wird nirgendwo erwähnt, dass Archive.org robots.txt nicht mehr ehrt.
Ebenfalls zu beachten: Dieser Artikel wird gehostet archiveteam.org
, was definitiv nicht der Fall ist archive.org
, und ich bin mir nicht sicher, ob es eine (offizielle) Beziehung zwischen archive.org
und gibt archiveteam.org
.
Tatsächlich scheint diese Seite über das Archivteam eine Unterscheidung zwischen und (Hervorhebung hinzugefügt) zu erklären :archive.org
archive.org
archiveteam.org
Das 2009 gegründete Archive Team ( nicht zu verwechseln mit dem archive.org Archive-It Team) ist ein Schurkenarchivistenkollektiv, das sich der Speicherung von Kopien schnell sterbender oder gelöschter Websites aus Gründen der Geschichte und des digitalen Erbes widmet. ...
Auf jeden Fall habe ich beschlossen , diesen einen Versuch zu geben, und ich fand , dass, zumindest zu diesem Zeitpunkt Archive.org STILL ehrt robots.txt:
- Ich habe einen zufälligen Artikel bei eBay gefunden: Artikelnummer: 131795294232
- Klicken Sie hier, um die verkauften Artikel anzuzeigen:
- Die Seite "Verkaufte Artikel" wird geöffnet: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Kopieren Sie den Link in die Zwischenablage.
- Goto web.archive.org und den Link von eBay einfügen.
- Sie werden sehen,
archive.org
dass die Seite "aufgrund von robots.txt nicht angezeigt werden kann".
Zu diesem Zeitpunkt bin ich noch nicht überzeugt, aber ich würde gerne das Gegenteil beweisen ... es wäre großartig, wenn es wahr wäre.