Wie kann ich PDFs einer Website herunterladen, indem ich nur den Root-Domainnamen verwende?

10

Ich benutze diesen Befehl:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

Ich kann jedoch keine PDFs von der Website abrufen.

Zum Beispiel habe ich einen Root-Domainnamen:

www.example.com

und diese Site enthält PDFs, DOCs, HTMLs usw. Ich möchte alle PDFs herunterladen, indem ich nur den Stammdomänennamen und nicht die genaue Adresse der Downloadseite einfüge.

command-line 14.04 wget

— PEDY
quelle

5

Der folgende Befehl sollte funktionieren:

wget -r -A "*.pdf" "http://yourWebsite.net/"

Siehe man wgetfür weitere Informationen.

— Radu Rădeanu
quelle

@ Rădeanu.Nicht funktionieren. Es erhält eine HTML-Seite (index.html) und stoppt dann den Prozess.

— PEDY

1

@PEDY Die PDF-Dateien müssen direkt oder indirekt durch die Datei index.html verknüpft werden, damit wget sie finden kann. Wenn sie sich nur auf dem Server befinden und von einem Skript oder einer dynamischen PHP-Sache bedient werden, kann wget sie nicht finden. Das gleiche Problem tritt auf, wenn Ihre PDF-Dateien von Google oder ähnlichem durchsucht werden sollen. Früher hatten wir versteckte Seiten mit allen Dateien, die statisch verknüpft waren, um dies zu ermöglichen ...

— Rmano

0

Falls dies nicht funktioniert, versuchen Sie Folgendes: (Ersetzen Sie die URL)

lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {}

Möglicherweise müssen Sie lynx installieren:

sudo apt install lynx

— Eduard Florinescu
quelle