Wie archiviere ich die gesamte Website?

14

Um eine einzelne Seite über Wayback Machine zu speichern, gehe ich zu:

http://web.archive.org/save/https://somewebsite.example.com/

Wie kann ich die Website rekursiv mit Wayback Machine archivieren ?

Es gibt einige Projekte wie wayback-machine-downloader, aber ich suche nach einer Funktion, mit der ich die Website rekursiv hochladen kann.

archive.org

— Kenorb
quelle

11

Da Wayback Machine eine solche Funktion nicht bietet, habe ich eine Problemumgehung gefunden.

Spiegeln Sie zunächst die Website mit wgetz
```
wget -m https://example.com/
```
Verwenden Sie dann, curlum alle heruntergeladenen Seiten einzeln zu archivieren.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{Hinweis: Sie können ändern .htmlzu .php, oder bestimmte Arten von Dateien enthalten.}

— Kenorb
quelle

Wie passen Sie Ihren Befehl an, wenn die Site keine Erweiterungen verwendet (wie z. B. HTML oder PHP - wie SE eingerichtet ist)?

— db

2

Sie können ändern , -name "*.html"um -type falle Dateien zu schließen.

— Kenorb

Wie funktioniert das mit Abfrageparametern?

— Mithical

6

Wenn Sie eine kleine Website archivieren möchten, das Archiv Team hält die ArchiveBot , einen IRC - Bot , wo Sie kriechen Websites anfordern können. Das Archivteam sendet die gecrawlten Seiten dann an die Wayback-Maschine des Internetarchivs.

— Fluss
quelle

Das ist unglaublich hilfreich.

— Guy

1

Die Wayback-Maschine bietet keine Möglichkeit, eine gesamte Site einzureichen, sondern nur eine einzelne Seite, wie Sie bereits gefunden haben. Dies wird in einigen Punkten der FAQ zu Wayback-Maschinen angesprochen :

Kann ich der Wayback-Maschine Seiten hinzufügen?

Unter https://archive.org/web können Sie die Funktion "Seite jetzt speichern" verwenden, um eine bestimmte Seite einmal zu speichern. Dadurch wird die URL derzeit weder zu zukünftigen Crawls hinzugefügt, noch wird mehr als diese eine Seite gespeichert. Es werden nicht mehrere Seiten, Verzeichnisse oder ganze Websites gespeichert .

und

Wie kann ich meine Website in die Wayback-Maschine aufnehmen?

Ein Großteil unserer archivierten Webdaten stammt aus unseren eigenen Crawls oder aus den Crawls von Alexa Internet. Keine der beiden Organisationen hat ein "Meine Website jetzt crawlen!" Einreichungsprozess . Die Crawls von Internet Archive neigen dazu, Websites zu finden, die gut mit anderen Websites verknüpft sind. Der beste Weg, um sicherzustellen, dass wir Ihre Website finden, besteht darin, sicherzustellen, dass sie in Online-Verzeichnissen enthalten ist und dass ähnliche / verwandte Websites auf Sie verlinken.

— John C.
quelle

1

Dies ist keine Antwort auf die Frage. Nur weil es keinen offiziellen Weg gibt, ist die Aufgabe nicht unmöglich auszuführen. Tatsächlich sollte es ziemlich einfach sein, ein Skript zu erstellen, das rekursiv Links hinzufügt.

— db

@db, Kenorbs Antwort scheint das zu sein, wonach Sie gefragt haben. Übrigens ist diese Antwort für mich im Moment nützlicher, da ich nur wollte, dass The WaybackMachine jetzt eine Seite für mich erfasst.

— cp.engr

1

In diesem Artikel auf archive.org wird auch ein kostenpflichtiger Dienst vorgeschlagen, der das Crawlen so oft für Sie erledigt, wie Sie möchten:

Eröffnen Sie ein Archive-It-Konto

Archive-It ist ein Abonnementdienst von Internet Archive, mit dem Sie Ihre eigenen Crawling-Projekte ohne technisches Fachwissen ausführen können. Sagen Sie uns, was und wie oft gecrawlt werden soll, und wir führen das Crawlen aus und legen die Ergebnisse in der Wayback-Maschine ab.

Dies ist wahrscheinlich nicht das, wonach Sie suchen, aber für einige Unternehmen kann dieser Service nützlich sein. Ich gehe davon aus, dass es hilft, archive.org zu finanzieren, was sonst kostenlos ist.

— Stason
quelle