Es gibt -p
/ --page-requisites
parameter (mit -r
zusammen), mit dem die meisten externen URLs heruntergeladen werden, die für die ordnungsgemäße Anzeige einer bestimmten HTML-Seite erforderlich sind (sofern sie nicht in der Robots-Datei ausgeschlossen sind).
Mehr dazu können Sie im Handbuch ( man wget
) nachlesen :
Es ist wichtig zu wissen, dass Wgets Idee eines externen Dokumentlinks eine beliebige URL ist, die in einem <A>
Tag, einem <AREA>
Tag oder einem <LINK>
anderen Tag als angegeben ist <LINK REL="stylesheet">
.
Da Wget normalerweise nicht zwischen externen und inlinierten Dokumenten unterscheidet, verbleiben in der Regel "Blattdokumente", bei denen die erforderlichen Informationen fehlen.
Beachten Sie, dass Wget eine interne Tabelle mit HTML-Tags / Attribut-Paaren hat, die bei der Suche nach verknüpften Dokumenten während eines rekursiven Abrufs berücksichtigt werden. Verwenden Sie --follow-tags=list
(durch Kommas getrennte Liste) gegenüber von, um eine hinzuzufügen --ignore-tags=list
.
Diese Liste von Tags ist wahrscheinlich in definiert html-url.c
und sieht folgendermaßen aus:
/* For tags handled by tag_find_urls: attributes that contain URLs to
download. */
static struct {
int tagid;
const char *attr_name;
int flags;
} tag_url_attributes[] = {
{ TAG_A, "href", ATTR_HTML },
{ TAG_APPLET, "code", ATTR_INLINE },
{ TAG_AREA, "href", ATTR_HTML },
{ TAG_BGSOUND, "src", ATTR_INLINE },
{ TAG_BODY, "background", ATTR_INLINE },
{ TAG_EMBED, "href", ATTR_HTML },
{ TAG_EMBED, "src", ATTR_INLINE | ATTR_HTML },
{ TAG_FIG, "src", ATTR_INLINE },
{ TAG_FRAME, "src", ATTR_INLINE | ATTR_HTML },
{ TAG_IFRAME, "src", ATTR_INLINE | ATTR_HTML },
{ TAG_IMG, "href", ATTR_INLINE },
{ TAG_IMG, "lowsrc", ATTR_INLINE },
{ TAG_IMG, "src", ATTR_INLINE },
{ TAG_INPUT, "src", ATTR_INLINE },
{ TAG_LAYER, "src", ATTR_INLINE | ATTR_HTML },
{ TAG_OBJECT, "data", ATTR_INLINE },
{ TAG_OVERLAY, "src", ATTR_INLINE | ATTR_HTML },
{ TAG_SCRIPT, "src", ATTR_INLINE },
{ TAG_TABLE, "background", ATTR_INLINE },
{ TAG_TD, "background", ATTR_INLINE },
{ TAG_TH, "background", ATTR_INLINE }
};