Als «wget» getaggte Fragen

wget - Befehlszeilenprogramm zum nicht interaktiven Herunterladen von Inhalten (kann über Skripte, Cron-Jobs, Terminals ohne X-Windows-Unterstützung usw. aufgerufen werden).



2
"Andere" Domains beim Download mit wget ignorieren?
Ich möchte Links unter www.website.com/XYZ crawlen und nur die Links unter www.website.com/ABC herunterladen. Ich benutze den folgenden Befehl wget, um die gewünschten Dateien zu erhalten: wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ Dies funktioniert einwandfrei, wenn ich wget 1.13.4 verwende. Das Problem ist jedoch, dass ich diesen Befehl …



2
Möchten Sie Binärdateien anstelle von HTML zurückgeben?
Ich verwende wget, um eine statische HTML-Seite herunterzuladen. Der W3C Validator teilt mir mit, dass die Seite in UTF-8 codiert ist. Doch wenn ich die Datei nach dem Download kate, bekomme ich eine Menge binären Blödsinn. Ich bin auf Ubuntu und dachte, die Standardkodierung wäre UTF-8? Das scheint meine Gebietsschemadatei …


5
Schreiben Sie die Ausgabe von wget oder curl in einen benutzerdefinierten Dateinamen, der auf der URL basiert
Zum Beispiel habe ich einen Link http://www.abc.com/123/def/ghi/jkl.mno. Ich möchte es mit wgetoder herunterladen curlund bekomme den Namen der Ausgabedatei als def_ghi_jkl.mno, wo das Teil def_ghiaus dem Link genommen wird. Ich werde diesen wgetBefehl in ein Skript einfügen, um mehrere Dateien herunterzuladen, sodass der Ausgabedateiname nicht explizit angegeben werden kann.
12 filenames  wget  curl 

2
Alternativen zu wget
Ich habe eine Site auf einem Server, die im Grunde genommen aus einer Reihe von HTML-Seiten, Bildern und Sounds besteht. Ich habe mein Passwort für diesen Server verloren und muss alles abrufen, was dort gespeichert ist. Ich kann Seite für Seite gehen und alles speichern, aber die Site hat mehr …
12 wget 

3
Einhängen der Dropbox (zum Durchsuchen der Dateien)
Ich möchte einfach in der Lage sein, ein Dropbox-Dateisystem zu erkunden, ohne viel zusätzliche Belastung für CPU, Speicher und Speicher (dh ohne Kopien der Remote-Dateien lokal zu speichern). Es scheint, dass der offizielle Client viel Ressourcen verbraucht (und unnötige Vorgänge wie das Synchronisieren ausführen würde) - http://www.lowendtalk.com/discussion/3179/dropbox-memory-usage-on-linux . Kann man …

5
Wie stoppen Sie 'wget', nachdem es einen 404 bekommen hat?
Wenn Sie die Klammererweiterung mit verwenden wget, können Sie problemlos fortlaufend nummerierte Bilder abrufen: $ wget 'http://www.iqandreas.com/sample-images/100-100-color/'{90..110}'.jpg' Es holt die ersten 10 Dateien nummerierten , 90.jpgum 99.jpgganz gut, aber 100.jpgund weiter gibt einen 404: Datei nicht gefunden Fehler (ich habe nur 100 Bilder auf dem Server gespeichert ist ). Diese …

2
Was ist der "Artikel von 2001" zum Blockieren von "automatisierten Abrufprogrammen", auf den in der Manpage wget verwiesen wird?
Die wgetManpage gibt dies unter dem Abschnitt für den --random-waitParameter an: Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. [...] A 2001 article in a publication devoted to development on a popular consumer …



1
Wie kann man fehlende "zuletzt geänderte" Header umgehen?
Ich laufe wgetso: wget --mirror --adjust-extension --convert-links --no-cookies http://tshepang.net -o log-main Ich bekomme eine Reihe dieser Nachrichten: Last-modified header missing -- time-stamps turned off. Ich nehme an, das bedeutet, dass Seiten immer wieder heruntergeladen werden, obwohl ich sie lokal habe. HINWEIS : Ich möchte dies, damit ich vorhandene Dateien nicht …
11 wget  web 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.