Wenn Sie diese anderen Tools nicht installiert haben, nur wget, und die Seite keine Formatierung hat, nur einfachen Text und Links, z. B. Quellcode oder eine Liste von Dateien, können Sie den HTML-Code mit sed wie folgt entfernen:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Dies verwendet wget, um den Quellcode der Seite in STDOUT abzulegen und sed, um alle <> Paare und alles dazwischen zu entfernen.
Anschließend können Sie die Ausgabe des Befehls sed mit> in die zu erstellende Datei umleiten:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
NB: Möglicherweise enthält die Datei ein zusätzliches Leerzeichen, das Sie nicht benötigen (z. B. werden die Zeilen um einige Spalten eingerückt).
Es ist möglicherweise am einfachsten, den Texteditor zu verwenden, um die Datei aufzuräumen (oder einen Quellformatierer, während Sie C-Quellcode herunterladen).
Wenn Sie in jeder Zeile der Datei dasselbe tun müssen, können Sie einen entsprechenden Befehl in den sed-Befehl einfügen (hier ein vorangestelltes Leerzeichen entfernen):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. Es ist nicht schwer, aber es hängt von der Seitenstruktur ab. Wenn Sie einen Link angeben, wird Ihnen möglicherweise jemand mit genauem Code helfen. Ansonstensed
oderperl
sind deine Freunde.