wget: Deaktivieren Sie die Option zum erzwungenen Abrufen von HTML-Dateien


0

Bei der Durchführung eines rekursiven Downloads gebe ich über den Parameter -R ein Muster an, das wget ablehnen soll. Handelt es sich bei dieser Datei um eine HTML-Datei, wird die Datei heruntergeladen, unabhängig davon, ob sie dem Muster entspricht oder nicht.

z.B.

wget -r -R "*dynamicfile*" example.com

ruft weiterhin Dateien wie example.com/dynamicfile1.html ab

Gibt es eine Möglichkeit, dies zu verhindern?

Antworten:


0

Dies geschieht, weil wget anhand der HTML-Dateien weiß, wo als Nächstes gescannt werden muss, während es durch die Webseite kriecht. Ich würde wget einfach sein Geschäft machen lassen und dann ein rm * .html machen, nachdem es fertig ist, oder so ähnlich.

BEARBEITEN: Tun ein rsync *dynamicfile* /foo/bar Ein zweites Verzeichnis könnte eine bessere Möglichkeit sein, Ihre Dateien zu filtern, um nur diejenigen mit dem richtigen Namen zu behalten (vorausgesetzt, Sie möchten einige der HTML-Dateien behalten, wenn sie den richtigen Namen haben).


1
Ich versuche, die Datei zu filtern, weil sie dazu führt, dass wget in einer Endlosschleife hängen bleibt, sodass dies nicht funktioniert.
Mike B

Klingt so, als wäre Ihre Endlosschleife das wahre Problem, mit dem Sie sich befassen möchten. Dies ist so unterschiedlich, dass Sie wahrscheinlich nur eine neue Frage stellen sollten, um Endlosschleifen mit wget zu verhindern.
Jarvin

Sie sollten wget eine Tiefenbeschränkung hinzufügen. Dadurch wird sichergestellt, dass es sich nicht um eine Endlosschleife handelt.
Jarvin
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.