Ich muss eine Site über HTTP rippen. Ich muss die Bilder, HTML, CSS und JavaScript herunterladen und in einem Dateisystem organisieren.
Weiß jemand, wie man das macht?
Ich muss eine Site über HTTP rippen. Ich muss die Bilder, HTML, CSS und JavaScript herunterladen und in einem Dateisystem organisieren.
Weiß jemand, wie man das macht?
Antworten:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
Dies läuft in der Konsole.
Dies greift nach einer Site, wartet 3 Sekunden zwischen den Anfragen, begrenzt die Geschwindigkeit des Downloads, damit die Site nicht zerstört wird, und maskiert sich so, dass es so aussieht, als wäre es nur ein Browser, damit die Site Sie nicht abschneidet mit einem Anti-Blutegel-Mechanismus.
Beachten Sie den -A
Parameter, der eine Liste der Dateitypen angibt, die Sie herunterladen möchten.
Sie können auch ein anderes Tag verwenden, -D domain1.com,domain2.com
um eine Reihe von Domänen anzugeben, die Sie herunterladen möchten, wenn sie über einen anderen Server verfügen oder andere Arten von Dateien hosten. Es gibt keine sichere Möglichkeit, dies für alle Fälle zu automatisieren, wenn Sie die Dateien nicht erhalten.
wget
ist in der Regel unter Linux vorinstalliert, kann jedoch problemlos für andere Unix-Systeme kompiliert oder für Windows heruntergeladen werden: GNUwin32 WGET
Verwenden Sie dies zum Guten und nicht zum Bösen.
Gute, kostenlose Lösung: HTTrack
HTTrack ist ein kostenloses (GPL, libre / free Software) und benutzerfreundliches Offline-Browser-Dienstprogramm.
Sie können eine World Wide Web-Site aus dem Internet in ein lokales Verzeichnis herunterladen, alle Verzeichnisse rekursiv erstellen und HTML, Bilder und andere Dateien vom Server auf Ihren Computer übertragen. HTTrack ordnet die relative Linkstruktur der ursprünglichen Site an. Öffnen Sie einfach eine Seite der "gespiegelten" Website in Ihrem Browser, und Sie können die Website von Link zu Link durchsuchen, als würden Sie sie online anzeigen. HTTrack kann auch eine vorhandene gespiegelte Site aktualisieren und unterbrochene Downloads fortsetzen. HTTrack ist vollständig konfigurierbar und verfügt über ein integriertes Hilfesystem.
Auf Linux-Systemen erledigt 'wget' dies ziemlich genau.
Es wurde auch auf mehrere andere Plattformen portiert, wie in einigen anderen Antworten erwähnt.
Offensichtlich wurde WGet einige Male erwähnt. Die beste Benutzeroberfläche, die ich dafür gefunden habe, ist
Es gibt noch einige andere UIs für WGet, von denen einige Kandidaten für die schlimmste UI- Frage sind
Sie müssen wget verwenden, das für die meisten Plattformen verfügbar ist. curl fordert Dokumente nicht rekursiv an, was eine der Hauptstärken von wget ist.
Linux: (normalerweise in der Distribution enthalten) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
BITTE stellen Sie sicher, dass Sie nicht auf die Website einhämmern - richten Sie geeignete Verzögerungen zwischen Anfragen ein und stellen Sie sicher, dass diese innerhalb der Nutzungsbedingungen der Website liegen.
-Adam
Als ich meinen Kommentar in GWLlosas Post verfolgte, fiel mir ein, dass ich GnuWin32 installiert habe und dass es einen Windows-Port von wget enthält.
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
Ich habe es vor einigen Jahren benutzt und es hat gut funktioniert. Nur für Windows. Früher war es Adware, aber anscheinend nicht mehr:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
Der Parameter: weist wget an, alle Dateien, einschließlich Bilder, einzuschließen.-e robots=off
: ignoriere die Regeln von sites robots.txt-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: Zeichenfolge des Benutzeragenten--random-wait
: Vermeiden Sie, auf die schwarze Liste gesetzt zu werden--limit-rate=20k
: begrenzt die Rate, mit der Dateien heruntergeladen werden.-b
: setzt wget nach dem ausloggen fort.
-c
(oder --continue
) Option hinzu, wenn etwas schief geht und ich den Prozess neu starten muss.
Ich denke, IDM Site Grabber ist die beste Lösung, es gibt auch Teleport Pro
Der Free Download Manager kann auch komplette Websites herunterladen.
Windows denke ich nur.