Wie kann ich den archive.org-Bot richtig (dis) zulassen? Haben sich die Dinge geändert, wenn ja, wann?

10

Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txtfängt mein damit an:

User-agent: *
Disallow: /

Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt, um ihre Bots zuzulassen:

User-agent: ia_archiver
Disallow:

Aber ich hatte bereits vor ein paar Jahren getan, was sie angedeutet hatten, zumindest habe ich Folgendes hinzugefügt:

User-agent: archive.org_bot
Disallow:

Dann gibt es eine andere Quelle, die behauptet, dass Sie die beiden oben genannten hinzufügen müssen Disallow, plus eine weitere:

User-agent: ia_archiver-web.archive.org 
Disallow:

Beachten Sie, dass Sie setzen müssen, Disallow: /wenn der Bot Ihre Site nicht archivieren soll.

Hat sich am IA-Bot etwas geändert? Wenn ja, wann?

Was ist der empfohlene Weg? Sollte ich vorerst nur alle drei zulassen und hoffen, dass IA ihren Bot-Namen in Zukunft nicht mehr ändert?

web-crawlers robots.txt internet-archive

— kqw
quelle

Mir war nur ia_archiver bekannt. Die anderen sind eine Überraschung für mich. Hast du Links dazu? Der Grund, den ich frage, ist, dass archive.org meine Website trotzdem besucht und ich sie nach IP-Adresse blockieren musste. Sie erwähnen auch , dass Sie Sie archive.org zulassen wollen , aber dann zu blockieren sie reden. Ich möchte dies nur klarer formulieren und die Links können uns allen helfen. Danke im Voraus!

— Closetnoc

Die Frage wurde aktualisiert. Hoffe es ist jetzt klarer. Die winzige Version: Ich möchte keine Suchmaschinen-Bots auf dieser Site, ich möchte archive.org-Bots. Aber vielleicht sollte ich die Frage umkehren, da die meisten Leute danach suchen?

— kqw

Wenn Sie keine dieser Optionen in verwenden, erlauben Sie archive.org, sofern Sie nicht mit einer pauschalen Anweisung blockieren.

— Schranknoc

Die Verwendung von "ia_archiver" sollte auch "ia_archiver-web.archive.org" blockieren, sodass letzteres unnötig erscheint (vorausgesetzt, dieser Bot folgt dem Standard).

— MrWhite

Sehen Sie den Bot ia-archiver (oder archive.org_bot) in Ihren Zugriffsprotokollen?

— MrWhite

9

Update : Wie @KevinFegan in den Kommentaren feststellt, wurde die Dokumentation geändert. Der folgende Teil beschreibt, wie das Internetarchiv in der Vergangenheit (zumindest 2014) damit umgegangen ist.

Ihre FAQ Wie kann ich die Seiten meiner Website von der Wayback-Maschine ausschließen lassen? bezieht sich auf das Entfernen von Dokumenten von der Wayback-Maschine , die dokumentiert, dass ihr Bot aufgerufen wird ia_archiver.

Dieser Datensatz sollte es dem Bot also ermöglichen, Ihre gesamte Site zu crawlen:

User-agent: ia_archiver
Disallow:

— unor
quelle

Die Reihenfolge der Gruppen sollte keine Rolle spielen. Der spezifischste (dh längste) Benutzeragent, der übereinstimmt, ist derjenige, der gewinnt. Die *Gruppe stimmt nur überein, wenn keine andere Gruppe übereinstimmt.

— MrWhite

@ w3d: Du hast recht, ich habe diesen Teil entfernt. Danke für die Info :)

— oder

1

Anscheinend hat sich dies im Laufe der Zeit geändert. Ich kann "ia_archiver" nicht auf der von Ihnen bereitgestellten FAQ-Seite und auf dieser Archive.org-Blog-Seite vom 25. April 2017 finden. Mark Graham sagt: Der Benutzeragent "ia_archiver" wird von Alexa Internet verwendet, nicht vom Internetarchiv.

— Kevin Fegan

@ KevinFegan: Danke für deine Nachricht! Ich habe meine Antwort aktualisiert, um auf archivierte Versionen der Dokumentation zu verlinken, die den Namen enthielten.

— Unor

Mir gefällt, wie sie die Dinge absichtlich kompliziert machen, damit sie entkommen können!

— Ultralisk

5

Hier gibt es wirklich zwei Probleme:

Wird der robots.txtauf Ihrer Website nicht zulassen (Block) Wayback Ihre Website von kriecht.
Wird Wayback Ihre Website crawlen?

Zu Punkt 1:
Wie andere gesagt haben, lautet der korrekte Eintrag für robots.txt:

User-agent: ia_archiver
Disallow:

Denken Sie daran, dass es eine Weile dauern kann (vielleicht eine lange Zeit), bis Wayback alle Änderungen bemerkt, die Sie an robots.txt vorgenommen haben.

So überprüfen Sie, ob Wayback robots.txtauf Ihrer Website das Crawlen Ihrer Website ermöglicht:

Gehen Sie zu dieser URL: https://archive.org/web/
Geben Sie in das Feld oben auf der Seite die URL einer Seite Ihrer Site ein und klicken Sie auf die "Browse History"Schaltfläche.
Oder geben Sie in das Feld unter "Seite jetzt speichern" (derzeit unten rechts) die URL einer Seite Ihrer Site ein und klicken Sie auf die "Save Page"Schaltfläche.

An diesem Punkt sollten Sie 1 von 3 Dingen sehen:

Es wird eine Fehlermeldung angezeigt, die angibt, dass Wayback aufgrund von "robots.txt" nicht auf Seiten dieser Site zugreifen kann.
Sie sehen den "Kalender" der historischen Speicherpunkte für die Seite auf Ihrer Site. In diesem Fall wissen Sie, dass Wayback NICHT daran gehindert wird, Ihre Site zu crawlen.
Oder Sie sehen eine Meldung, dass Wayback kein Archiv dieser Seite hat, und ein Angebot, auf einen Link zu klicken, um die Seite zu Wayback hinzuzufügen. Auch in diesem Fall wissen Sie, dass Wayback NICHT daran gehindert wird, Ihre Website zu crawlen.

Nun zu Punkt 2:

Wird Wayback Ihre Website crawlen?

Nur weil Sie Wayback erlauben , Ihre Site zu crawlen, bedeutet dies nicht, dass sie (jemals) Ihre Site crawlen.

Laut den Wayback-FAQ (Hervorhebung hinzugefügt):

Wie kann ich meine Website in die Wayback-Maschine aufnehmen?

Ein Großteil unserer archivierten Webdaten stammt aus unseren eigenen Crawls oder aus den Crawls von Alexa Internet. Keine der beiden Organisationen hat ein "Meine Website jetzt crawlen!" Einreichungsprozess. Die Crawls von Internet Archive neigen dazu, Websites zu finden, die gut mit anderen Websites verknüpft sind . Der beste Weg, um sicherzustellen, dass wir Ihre Website finden, besteht darin, sicherzustellen, dass sie in Online-Verzeichnissen enthalten ist und dass ähnliche / verwandte Websites auf Sie verlinken.

Alexa Internet verwendet seine eigenen Methoden, um Websites zum Crawlen zu ermitteln. Es kann hilfreich sein, die kostenlose Alexa-Symbolleiste zu installieren und die Website zu besuchen, die gecrawlt werden soll, um sicherzustellen, dass sie davon erfahren.

Unabhängig davon, wer die Site crawlt, sollten Sie sicherstellen, dass die 'robots.txt'-Regeln Ihrer Site und die META-Roboteranweisungen auf der Seite Crawler nicht anweisen, Ihre Site zu meiden.

Update: 09. Mai 2017

Andere haben Kommentare / Antworten hinterlassen, die darauf hinweisen, dass Archive.org robots.txt nicht mehr berücksichtigt. Vielleicht ist dies ein "work in progress" und es wird irgendwann der Fall sein, aber ich habe dieses neue Verhalten noch nicht gesehen.

Der Fall hierfür scheint aus diesem Artikel zu stammen: Robots.txt: ROBOTS.TXT IS A SUICIDE NOTE von archiveteam.org. Während diese Seite wenig oder gar nichts Gutes über "Robots.txt" zu sagen hat, wird nirgendwo erwähnt, dass Archive.org robots.txt nicht mehr ehrt.

Ebenfalls zu beachten: Dieser Artikel wird gehostet archiveteam.org, was definitiv nicht der Fall ist archive.org, und ich bin mir nicht sicher, ob es eine (offizielle) Beziehung zwischen archive.orgund gibt archiveteam.org.

Tatsächlich scheint diese Seite über das Archivteam eine Unterscheidung zwischen und (Hervorhebung hinzugefügt) zu erklären :archive.org archive.orgarchiveteam.org

Das 2009 gegründete Archive Team ( nicht zu verwechseln mit dem archive.org Archive-It Team) ist ein Schurkenarchivistenkollektiv, das sich der Speicherung von Kopien schnell sterbender oder gelöschter Websites aus Gründen der Geschichte und des digitalen Erbes widmet. ...

Auf jeden Fall habe ich beschlossen , diesen einen Versuch zu geben, und ich fand , dass, zumindest zu diesem Zeitpunkt Archive.org STILL ehrt robots.txt:

Ich habe einen zufälligen Artikel bei eBay gefunden: Artikelnummer: 131795294232
Klicken Sie hier, um die verkauften Artikel anzuzeigen:

Die Seite "Verkaufte Artikel" wird geöffnet: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Kopieren Sie den Link in die Zwischenablage.
Goto web.archive.org und den Link von eBay einfügen.
Sie werden sehen, archive.orgdass die Seite "aufgrund von robots.txt nicht angezeigt werden kann".

Zu diesem Zeitpunkt bin ich noch nicht überzeugt, aber ich würde gerne das Gegenteil beweisen ... es wäre großartig, wenn es wahr wäre.

— Kevin Fegan
quelle

Das Sperren von archive.org mit robots.txt funktioniert nicht mehr:

— wortwart

@wortwart - Das wäre großartig, wenn es so wäre (siehe das Update, das ich meiner Antwort hinzugefügt habe). Haben Sie Links zu Informationen dazu?

— Kevin Fegan

Sicher: blog.archive.org/2017/04/17/… "Vor einigen Monaten haben wir aufgehört, auf robots.txt-Dateien auf Websites der US-Regierung und des Militärs zu verweisen (...). Wir versuchen nun, dies allgemeiner zu tun. ""

— Wortwart

4

Update 2017

Der Archiv-Bot kümmert sich jetzt nicht mehr um Ihre robots.txt.

Wenn Sie es wirklich blockieren möchten, senden Sie ihnen eine E-Mail gemäß dieser Seite oder blockieren Sie ihre IP-Adresse über htaccess.

— Goyllo
quelle

2

Siehe den Mai 2017 Update auf meine Antwort: Wie man richtig (dis) ermöglichen die archive.org Bot ...? . Der Archiv-Bot kümmert sich weiterhin um die robots.txt-Datei, mit Ausnahme von Regierungswebsites. Beachten Sie, dass der von Ihnen erwähnte Artikel von www.archiveteam.org stammt und nicht mit Archive.org zusammenhängt. --->

— Kevin Fegan

---> Während diese Seite wenig oder gar nichts Gutes über "Robots.txt" zu sagen hat, wird nirgendwo erwähnt, dass Archive.org robots.txt nicht mehr ehrt. Der relevante Artikel auf Archive.org lautet: Robots.txt für Suchmaschinen funktioniert nicht gut für Webarchive . "Vor einigen Monaten haben wir aufgehört, auf robots.txt-Dateien auf Websites der US-Regierung und des Militärs zu verweisen (...). Wir versuchen nun, dies allgemeiner zu tun."

— Kevin Fegan

Ja. Jetzt ignoriert das Archiv die Entfernungsanforderungen vollständig.

— Ultralisk

3

Der Eintrag robots.txt ia_archiver Disallow (mit dem "/") sollte für die von Ihnen beschriebene Notwendigkeit in Ordnung sein ("für die Ewigkeit bewahren", aber noch nicht öffentlich).

Ich habe gerade einen kurzen Test durchgeführt und den Eintrag ia_archiver Disallow für eine Site auskommentiert, die ihn mindestens in den letzten 10 Jahren hatte. Dann habe ich die Website auf archive.org/web nachgeschlagen und es wurden die in den Jahren 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 und 2017 gesammelten Gewinne angezeigt! Dies bedeutet, dass Archive.org das, was andere in diesen Jahren als "Nicht archivieren" bezeichneten, nie strikt eingehalten hat, sondern lediglich die archivierten Kopien nicht offengelegt hat.

— Mike
quelle

2

"ia_archiver" wird jetzt (ab) von Alexa verwendet, einige Quellen sagen: 1 , 2 .
Archive.org now (2018) respektiert die "robots.txt" überhaupt nicht mehr. 3 Nicht nur für mil / gov-Seiten, sondern für alle Seiten. Wie ich es mit meiner eigenen privaten Website erlebt habe, die seit 2012 eine ia-ausschließliche robots.txt hat und hatte; und jetzt fand ich plötzlich heraus, dass es all die Jahre von ihnen gekrochen und gerettet wurde und jetzt ist die ganze Geschichte sichtbar. Es ist ein Gefühl, betrogen zu werden. > :-(

— Carl
quelle

1

Ich habe die robots.txtMethode ausprobiert und sie hat nicht funktioniert. Also kontaktierte ich die Website unter ihrer E-Mail info@archive.org:

Hallo,

Können Sie bitte meine persönliche Website dimitarnestorov.com aus Ihrem Archiv entfernen?

Vielen Dank!

Dimitar

Und ich habe folgende Antwort bekommen:

Hallo,

Das Internetarchiv kann Websites von der Wayback-Maschine (web.archive.org) ausschließen. Wir bitten Sie jedoch zunächst mit Respekt, uns dabei zu helfen, zu überprüfen, ob Sie der Eigentümer der Website oder der Autor von Inhalten von dimitarnestorov.com sind, indem Sie einen der folgenden Schritte ausführen:

(Hinweis: Einige dieser Optionen beziehen sich möglicherweise auf den Inhalt früherer Wayback Machine-Erfassungen und / oder auf die Dokumentation, die Sie möglicherweise für den angegebenen Zeitraum erstellt haben.)

Veröffentlichen Sie Ihre Anfrage in der aktuellen Version der Website (und senden Sie uns einen Link).

Senden Sie Ihre Anfrage über den auf der Website aufgeführten Haupt-E-Mail-Kontakt und zeigen Sie uns, wo sie sich befinden kann (falls vorhanden).

Senden Sie eine Anfrage über die E-Mail-Adresse des Registranten (sofern diese in einer WHOIS-Suche öffentlich sichtbar ist, auf die Sie uns verlinken können) oder über die E-Mail-Adresse des Webmasters, die auf der Website aufgeführt ist.

Zeigen Sie uns, wo Ihre persönlichen Daten (Name, Kontaktstelle, Selbstbild) auf der Website so erscheinen, dass Sie als Eigentümer der Website oder Autor des Inhalts identifiziert werden, den Sie ausgeschlossen haben möchten. In diesem Fall bitten wir Sie um Ihre Identität durch Scannen eines gültigen Lichtbildausweises zu überprüfen (vertrauliche Informationen wie Geburtsdatum, Adresse oder Telefonnummer können redigiert werden).

leiten Sie uns die Mitteilung eines Hosting-Unternehmens oder Registrars weiter, die an Sie als Eigentümer der Domain gerichtet ist.

(Hinweis: Die einfache Erwähnung des Namens / Benutzernamens einer Person und / oder eines Hyperlinks / einer Weiterleitung zwischen Websites / Seiten / Konten allein reicht normalerweise nicht aus, um Archive auszuschließen.)

Wenn Ihnen keine dieser Optionen zur Verfügung steht, teilen Sie uns dies bitte in einer Antwort auf diese E-Mail mit.

Wir wären Ihnen dankbar, wenn Sie uns helfen würden, so viel wie möglich vom Archiv zu erhalten. Bitte teilen Sie uns daher mit, ob es nur bestimmte URLs oder Verzeichnisse gibt, um die Sie sich kümmern, damit wir den Rest der Archive verfügbar lassen können.

Wie Sie vielleicht wissen, handelt es sich bei Internet Archive um eine gemeinnützige digitale Bibliothek, die über die Wayback-Maschine eine frei zugängliche historische Aufzeichnung des Internets verwalten möchte. Das Material in den Archiven wird von Internet Archive nicht für kommerzielle Zwecke genutzt.

Das Internet-Archiv-Team

Ich habe wayback-removal-request.htmlmit folgendem Inhalt erstellt (nicht einmal gültiges HTML):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Habe es hochgeladen und auf ihre E-Mail mit der URL geantwortet, unter der die Webseite verfügbar war. Später erhielt ich die folgende Antwort:

Hallo,

Die Site / URL, auf die in Ihrer E-Mail unten verwiesen wird, wurde jetzt zum Ausschluss von der Wayback-Maschine unter http://www.archive.org eingereicht (in Bezug auf alle früheren Erfassungen):

dimitarnestorov.com

Bitte erlauben Sie bis zu einem Tag, damit die automatisierten Teile des Prozesses ihren Lauf nehmen und die Änderungen wirksam werden.

Das Internet-Archiv-Team

Als ich ein paar Stunden später nachgesehen habe, wurde meine Website entfernt.

— Dimitar Nestorov
quelle