wget hat eine Option, die -np
das Abrufen von Dateien aus einem übergeordneten Verzeichnis deaktiviert. Ich brauche etwas Ähnliches, aber etwas flexibler. Erwägen:
www.foo.com/bar1/bar2/bar3/index.html
Ich möchte alles bekommen, aber nicht "höher" (in der Baumhierarchie) als bar2
(!). Also bar2
sollte auch geholt werden aber nicht bar1
.
Gibt es eine Möglichkeit, wget selektiver zu machen?
Hintergrund: Ich versuche, eine Website mit einer ähnlichen logischen Struktur zu spiegeln - Ausgangspunkt, dann nach oben, dann nach unten. Wenn es ein anderes Tool gibt wget
, das für ein solches Layout besser geeignet ist, lassen Sie es mich bitte ebenfalls wissen.
Aktualisieren
Oder anstatt eine mögliche Tiefe anzugeben, vielleicht so etwas wie "keine Eltern, es sei denn, sie stimmen mit dieser oder jener URL überein".
Update 2
Es gibt eine Struktur auf dem Server, oder? Sie können es als Baum visualisieren. Normalerweise beginnt man mit "--no-parent" an einem Punkt A und geht nur nach unten.
Mein Wunsch ist die Fähigkeit, nach oben zu gehen - ausgedrückt durch das Sagen, es ist erlaubt, X-Knoten zu steigen, oder (was 100% äquivalent ist), dass es erlaubt ist, bis zum B-Knoten zu steigen (wobei der Abstand BA = X ist).
In allen Fällen bleiben die Regeln für das Herunterfahren so, wie sie von den Benutzern definiert wurden (zum Beispiel - nur für Y-Ebenen).
Wie lagere ich es? Eigentlich ist es nicht wirklich die Frage - wget
standardmäßig wird die Serverstruktur neu erstellt, hier gibt es nichts zu befürchten, oder es besteht keine Notwendigkeit, irgendetwas zu reparieren. Also in 2 Worten - wie immer.
Update 3
Verzeichnisstruktur unten - Nehmen wir an, dass in jedem Verzeichnis nur eine Datei vorhanden ist, in R - R.html und so weiter. Dies wird natürlich vereinfacht, da Sie mehr als eine Seite haben können.
R
/ \
B G
/ \
C F
/ \
A D
/
E
A (A.html) ist mein Ausgangspunkt, X = 2 (also ist B der Knoten der obersten Ebene, den ich abrufen möchte). In diesem Beispiel bedeutet dies, dass alle Seiten außer R.html und G.html abgerufen werden. A.html wird „Ausgangspunkt“ genannt , weil ich zu haben , von ihm zu starten, nicht von B.
Update 4
Die Benennung wird ab Update 3 verwendet.
wget OPTIONEN www.foo.com/B/C/A/A.html
Die Frage ist, welche Optionen es gibt, um alle Seiten aus Verzeichnis B und darunter abzurufen (in dem Wissen, dass Sie mit A.html beginnen müssen).
bar2
Verzeichnis und seinen gesamten Inhalt wollen. Wenn dies nicht der Fall ist, klären Sie dies bitte.
bar2
geholt aber nichtbar1
? Wo wirdbar2
wohnen? Was ist, wenn zwei oder mehr Verzeichnisse, die Sie nicht möchten, Unterverzeichnisse mit identischen Namen haben, deren Inhalt zusammengeführt werden soll? Es ist mit ziemlicher Sicherheit einfacher, einfach die ganze verdammte Seite zu bekommen und dann die Dinge nach Belieben zu beschneiden / zu bewegen.