Ich versuche einen Blog zu spiegeln, zB www.example.com
mit wget
.
Ich benutze wget mit den folgenden Optionen (Shell-Variablen werden korrekt ersetzt):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Der Blog enthält Bilder, die sich in anderen Domänen befinden.
Obwohl ich die -p
Option angegeben habe (verknüpfte Seiten-Assets herunterladen), werden diese Bilder nur heruntergeladen, wenn ich jede Domain explizit in der -D
Option angegeben habe.
Wenn ich die -D
Option weglasse, folgt wget jedem Link außerhalb www.example.com
und lädt das gesamte Internet herunter.
Ist es möglich wget
, einfach jedem Link unter zu folgen www.example.com
und die erforderlichen Assets jeder Seite herunterzuladen, unabhängig davon, ob sich diese auf derselben Domain befinden oder nicht, ohne dass ich jede Domain explizit angeben muss?
-D $domains
als auch -H
. Ohne -H
sollte es in Ihrer Domain bleiben, aber trotzdem die direkten Seiten-Assets abrufen, selbst wenn sie sich in einer anderen Domain befinden.
wget -N -E -H -k -K -p
zuerst verwendet und mir ein Skript ausgedacht, um fehlende verknüpfte Bilder abzurufen.