Grundsätzlich möchte ich eine ganze Site mit Wget crawlen, aber ich muss NIEMALS andere Assets (z. B. Bilder, CSS, JS usw.) herunterladen. Ich möchte nur die HTML-Dateien.
Google-Suchen sind völlig nutzlos.
Hier ist ein Befehl, den ich ausprobiert habe:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Unsere Website ist Hybrid-Flat-PHP und CMS. Also, HTML "Dateien" könnten /path/to/page
, /path/to/page/
, /path/to/page.php
, oder /path/to/page.html
.
Ich habe sogar aufgenommen, -R js,css
aber es lädt immer noch die Dateien herunter, dann lehnt es sie ab (sinnlose Verschwendung von Bandbreite, CPU und Serverlast!).
Length: 558 [text/css]
auf den Dateien, die ich nicht möchte. Wenn ich die Anfrage stoppen könnte, wenn der Header nicht zurückkehrt text/html
, wäre ich hocherfreut.