Stellen Sie sicher, dass wget keine Dateien herunterlädt, die größer als X sind


11

Okay, ich gebe auf. Wie kann ich die Größe der heruntergeladenen Dateien begrenzen, z. B. wenn ich keine Dateien mit mehr als 2 MB möchte?

Antworten:


6

Die einzige mir bekannte Einschränkungsoption, die wgetunterstützt wird, ist der -QKontingentwechsel. Dies ist jedoch nicht das, was Sie möchten, da es nach einer kombinierten Begrenzung aller heruntergeladenen Dateien und nicht einzeln beendet wird. -QWie in der Manpage erläutert, funktioniert es auch nicht, jeden Link separat mit dem Switch zu verbinden .

Ich weiß nicht, welche Umgebung Sie verwenden, aber der Crawler unterstützt Dateigrößenbeschränkungen mit maximaler Länge und wird auf der Java-Plattform ausgeführt.

aus ihrem Benutzerhandbuch :

  • Max-Länge-Bytes

Maximale Anzahl von Bytes zum Herunterladen pro Dokument. Schneidet die Datei ab, sobald dieses Limit erreicht ist.

Standardmäßig ist dieser Wert auf einen extrem großen Wert (im Exabyte-Bereich) eingestellt, der in der Praxis niemals erreicht wird.


Hmmm. Okay. Das wiederholte eine Menge von dem, was ich herausgefunden hatte, aber trotzdem eine gute Antwort. Ich wusste jedoch nicht, dass Heritrix Dateien abgeschnitten hat, anstatt sie zu überspringen.
Nathaniel

3

Wenn es darum geht, " maximal 2 MB herunterzuladen " und nicht " Dateien mit maximal 2 MB herunterzuladen ", können Sie die auf der Festplatte gespeicherte Ausgabe einfach einschränken.

wget -O - $url |head -c 1024(mit einem optionalen > $SaveAsFile) -> speichert die erste KB und der Rest wird abgeschnitten.

(genug, um eine " OK: $ Message " zu sehen, die mein / tmp nicht mit Tonnen von Fehlermeldungen von der Fernbedienung beendet ;-))


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.