Wie kann ich eine ganze Website herunterladen?


351

Wie kann ich alle Seiten von einer Website herunterladen?

Jede Plattform ist in Ordnung.



@tnorthcutt, ich bin auch überrascht. Wenn ich mich nicht furchtbar falsch erinnere, war meine Wget-Antwort die akzeptierte, und das sah nach einer festen Sache aus. Ich beschwere mich aber nicht - plötzlich gab mir die erneute Aufmerksamkeit mehr als die Wiederholung des Kopfgeldes. : P
Jonik

hast du IDM ausprobiert? superuser.com/questions/14403/… mein Beitrag ist vergraben. Was hat Ihnen in IDM gefehlt?
Lazer

5
@ Joe: Könnte helfen, wenn Sie Details über die fehlenden Funktionen geben würden ...
Ilari Kajaste

browse-offline.com kann den vollständigen Baum der Website herunterladen, sodass Sie ... ihn offline durchsuchen können
Menelaos Vergis

Antworten:


334

HTTRACK funktioniert wie ein Champion, um den Inhalt einer ganzen Site zu kopieren. Dieses Tool kann sogar die Teile erfassen, die benötigt werden, damit eine Website mit aktivem Code offline funktioniert. Ich bin erstaunt über das, was es offline replizieren kann.

Dieses Programm wird alles tun, was Sie dafür benötigen.

Fröhliches Jagen!


7
Ich benutze das seit Jahren - sehr zu empfehlen.
Umber Ferrule

4
Würde dies den tatsächlichen ASP-Code kopieren, der auf dem Server ausgeführt wird?
Taptronic

8
@Optimal Solutions: Nein, das ist nicht möglich. Sie benötigen dafür Zugriff auf die Server oder den Quellcode.
Sasha Chedygov

2
Nachdem ich sowohl httrack als auch wget für Websites mit Autorisierung ausprobiert habe, muss ich mich für wget entscheiden. In diesen Fällen konnte httrack nicht zum Laufen gebracht werden.
Leo

1
Was ist die Option für die Authentifizierung?
Vincent Mathew

272

Wget ist ein klassisches Befehlszeilenprogramm für diese Art von Aufgaben. Es wird mit den meisten Unix / Linux-Systemen geliefert und ist auch für Windows erhältlich . Auf einem Mac ist Homebrew der einfachste Weg, es zu installieren ( brew install wget).

Sie würden etwas tun wie:

wget -r --no-parent http://site.com/songs/

Weitere Informationen finden Sie im Wget-Handbuch und seinen Beispielen oder zB in den folgenden Abschnitten:


12
Es gibt keine bessere Antwort als diese - wget kann alles: 3
Phoshi

6
+1 für das Einschließen von --no-parent. Verwenden Sie auf jeden Fall --mirror anstelle von -r. und Sie können -L / - einschließen, um Links zu anderen Servern nicht zu folgen.
Quack Quijote

2
Wie ich auch nach httrack.com gefragt habe - würde dieses cmd-Linientool den ASP- Code oder nur das Rendering des HTML erhalten? Ich muss das versuchen. Dies könnte für Entwickler etwas besorgniserregend sein, wenn dies der Fall ist ...
Taptronic

6
@optimal, die HTML-Ausgabe natürlich - es würde den Code nur bekommen, wenn der Server schlecht konfiguriert war
Jonik

2
Leider funktioniert es bei mir nicht - es gibt ein Problem mit Links zu CSS-Dateien, sie werden nicht in relative Dateien geändert, dh Sie können in Dateien Folgendes sehen: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> was lokal nicht gut funktioniert, es sei denn, es gibt ein waz, um Firefox zu täuschen, dass ein bestimmtes Verzeichnis eine Wurzel ist.
Gorn

148

Benutze wget:

wget -m -p -E -k www.example.com

Die Optionen erklärt:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

8
+1 für die Erläuterung der vorgeschlagenen Optionen. (Obwohl ich dies nicht für --mirrorsehr selbsterklärend halte . Hier aus der Manpage: " Diese Option aktiviert die Rekursion und die Zeitstempelung, legt die unendliche Rekursionstiefe fest und behält die FTP-Verzeichnislisten bei. Sie entspricht derzeit -r -N- l inf
no

2
Wenn Sie nicht alles in einen Ordner mit dem Namen der Domäne herunterladen möchten, die Sie spiegeln möchten, erstellen Sie einen eigenen Ordner und verwenden Sie die Option -nH (wodurch der Host-Teil übersprungen wird).
Rafael Bugajewski

2
Was ist, wenn die Authentifizierung erforderlich ist?
Val

4
Ich habe versucht, mit Ihrem wget --mirror -p --html-extension --convert-links www.example.comund es hat gerade den Index heruntergeladen. Ich denke, Sie müssen -rdie gesamte Website herunterladen.
Eric Brotto

4
-w secondsWenn Sie Bedenken haben, eine Site aufgrund von Datenverkehr oder zu vielen Anfragen zu beenden , verwenden Sie (, um eine Anzahl von Sekunden zwischen den Anfragen zu warten, oder --limit-rate=amount, um die maximale Bandbreite für den Download
anzugeben


8

Der Internet Download Manager verfügt über ein Site Grabber-Dienstprogramm mit zahlreichen Optionen, mit denen Sie jede gewünschte Website ganz nach Ihren Wünschen herunterladen können.

  1. Sie können das Limit für die Größe der herunterzuladenden Seiten / Dateien festlegen

  2. Sie können die Anzahl der zu besuchenden Zweigstellen festlegen

  3. Sie können das Verhalten von Skripten / Popups / Duplikaten ändern

  4. Sie können eine Domain angeben. Nur unter dieser Domain werden alle Seiten / Dateien heruntergeladen, die die erforderlichen Einstellungen erfüllen

  5. Die Links können zum Durchsuchen in Offline-Links konvertiert werden

  6. Sie haben Vorlagen, mit denen Sie die obigen Einstellungen für Sie auswählen können

Bildbeschreibung hier eingeben

Die Software ist jedoch nicht kostenlos. Verwenden Sie die Testversion, um festzustellen, ob sie Ihren Anforderungen entspricht.



5

Ich werde auf die Online-Pufferung eingehen, die Browser verwenden ...

In der Regel verwenden die meisten Browser einen Browser-Cache, um die Dateien, die Sie von einer Website herunterladen, für eine Weile zu speichern, damit Sie nicht immer wieder statische Bilder und Inhalte herunterladen müssen. Dies kann unter Umständen die Dinge erheblich beschleunigen. Im Allgemeinen sind die meisten Browser-Caches auf eine feste Größe beschränkt. Wenn diese Grenze erreicht wird, werden die ältesten Dateien im Cache gelöscht.

ISPs verfügen in der Regel über Caching-Server, auf denen Kopien von Websites gespeichert sind, auf die häufig zugegriffen wird, z. B. ESPN und CNN. Dies erspart ihnen die Mühe, diese Sites jedes Mal aufzurufen, wenn jemand in ihrem Netzwerk dorthin geht. Dies kann zu erheblichen Einsparungen bei der Anzahl der duplizierten Anfragen an externe Websites beim Internetdienstanbieter führen.




4

Ich habe das seit vielen Jahren nicht mehr gemacht, aber es gibt immer noch ein paar Versorgungsunternehmen. Vielleicht möchten Sie es mit Web Snake versuchen . Ich glaube, ich habe es vor Jahren benutzt. Ich erinnerte mich sofort an den Namen, als ich Ihre Frage las.

Ich stimme Stecy zu. Bitte hämmern Sie nicht ihre Website. Sehr schlecht.


3

Probieren Sie den BackStreet Browser aus .

Es ist ein kostenloser, leistungsfähiger Offline-Browser. Ein Hochgeschwindigkeits-Programm zum Herunterladen und Anzeigen von Websites mit mehreren Threads. Durch die gleichzeitige Eingabe mehrerer Serveranforderungen kann BackStreet Browser schnell die gesamte Website oder Teile einer Website herunterladen, einschließlich HTML, Grafiken, Java-Applets, Sound und anderer benutzerdefinierbarer Dateien. Alle Dateien auf Ihrer Festplatte werden entweder im nativen Format gespeichert. oder als komprimierte ZIP-Datei und offline anzeigen.

Bildbeschreibung hier eingeben


3

Teleport Pro ist eine weitere kostenlose Lösung, mit der alle Dateien von jedem Ziel kopiert werden können (es gibt auch eine kostenpflichtige Version, mit der Sie mehr Seiten mit Inhalten abrufen können).


3

DownThemAll ist ein Firefox-Add-On, das den gesamten Inhalt (z. B. Audio- oder Videodateien) für eine bestimmte Webseite mit einem einzigen Klick herunterlädt. Dadurch wird nicht die gesamte Website heruntergeladen, aber möglicherweise wurde nach so etwas gesucht.


Es können nur Links (HTML) und Medien (Bilder) heruntergeladen werden.
Ain

3

Für Linux und OS X: Ich habe eine Grab-Site für die Archivierung ganzer Websites in WARC- Dateien geschrieben. Diese WARC-Dateien können durchsucht oder extrahiert werden. Mit grab-site können Sie steuern, welche URLs mit regulären Ausdrücken übersprungen werden sollen. Diese können geändert werden, wenn der Crawl ausgeführt wird. Es enthält auch eine Reihe von Standardeinstellungen zum Ignorieren von Junk-URLs.

Es gibt ein Web-Dashboard zum Überwachen von Crawls sowie zusätzliche Optionen zum Überspringen von Videoinhalten oder Antworten über eine bestimmte Größe.



0

Der ehrwürdige FreeDownloadManager.org hat auch diese Funktion.

Free Download Manager hat es in zwei Formen in zwei Formen: Site Explorer und Site Spider :

Site Explorer Mit
Site Explorer können Sie die Ordnerstruktur einer Website anzeigen und auf einfache Weise die erforderlichen Dateien oder Ordner herunterladen.
HTML Spider Mit HTML Spider können
Sie ganze Webseiten oder sogar ganze Websites herunterladen. Das Tool kann so angepasst werden, dass nur Dateien mit den angegebenen Erweiterungen heruntergeladen werden.

Ich finde, dass der Site Explorer hilfreich ist, um festzustellen, welche Ordner eingeschlossen oder ausgeschlossen werden sollen, bevor Sie versuchen, die gesamte Site herunterzuladen. Dies gilt insbesondere dann, wenn sich auf der Site ein ganzes Forum versteckt, das Sie beispielsweise nicht herunterladen möchten.



-3

Firefox kann das nativ (mindestens FF 42). Verwenden Sie einfach "Seite speichern"

Bildbeschreibung hier eingeben


6
Falsch! In der Frage wird gefragt, wie eine gesamte Website gespeichert werden soll. Firefox kann das nicht.

2
Ihre Methode funktioniert nur, wenn es sich um eine einseitige Site handelt, die Site jedoch 699 Seiten umfasst. Wäre sehr anstrengend ...
Quidam

-4

Ich glaube, Google Chrome kann dies auf Desktop-Geräten tun. Rufen Sie einfach das Browser-Menü auf und klicken Sie auf Webseite speichern.

Beachten Sie auch, dass Dienste wie pocket die Website möglicherweise nicht wirklich speichern und daher anfällig für Links sind.

Beachten Sie außerdem, dass das Kopieren der Inhalte einer Website möglicherweise das Urheberrecht verletzt, sofern dies zutrifft.


3
Eine Web - Seite in Ihrem Browser ist nur eine von vielen einer Web - Site .
Arjan

@Arjan Ich denke, das macht meine Option arbeitsintensiv. Ich glaube, es ist üblicher, dass Leute nur eine Seite speichern wollen, daher ist diese Antwort möglicherweise besser für diejenigen, die hierher kommen.
Jiggunjer
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.