Antworten:
Mit dem wget
Befehl können Sie die Seite herunterladen und in eine Variable einlesen:
content=$(wget google.com -q -O -)
echo $content
Wir verwenden die -O
Option, mit wget
der wir den Namen der Datei angeben können, in die wget
der Seiteninhalt ausgegeben wird. Wir geben -
an, den Dump auf die Standardausgabe zu bringen und diesen in der Variablen zu sammeln content
. Sie können die -q
leise Option hinzufügen , um die Wget-Ausgabe auszuschalten.
Sie können den Befehl curl auch für Folgendes verwenden:
content=$(curl -L google.com)
echo $content
Wir müssen die -L
Option verwenden, da die von uns angeforderte Seite möglicherweise verschoben wurde. In diesem Fall müssen wir die Seite vom neuen Speicherort abrufen. Die Option -L
oder --location
hilft uns dabei.
src
Attribut des richtigen Elements extrahieren und dann diese Seite herunterladen . Wenn Sie tq installieren , sollte dieser Befehl es tun:curl -s http://ww1.watchop.io/manga2/read/one-piece/1/4 | tq -j -a src "#imgholder a img" | xargs wget
convert_links = on
mit -O-
Option. Es schlägt mit Fehler fehl -k can be used together with -O only if outputting to a regular file.
. Wird es erwartet?
Es gibt viele Möglichkeiten, eine Seite über die Befehlszeile abzurufen ... aber es hängt auch davon ab, ob Sie die Codequelle oder die Seite selbst möchten:
Wenn Sie die Codequelle benötigen:
mit Locke:
curl $url
mit wget:
wget -O - $url
Wenn Sie jedoch das erhalten möchten, was Sie mit einem Browser sehen können, kann Luchs nützlich sein:
lynx -dump $url
Ich denke, Sie können so viele Lösungen für dieses kleine Problem finden, vielleicht sollten Sie alle Manpages für diese Befehle lesen. Und vergessen Sie nicht, $url
durch Ihre URL zu ersetzen :)
Viel Glück :)
Da ist der wget
Befehl oder der curl
.
Sie können jetzt die mit wget heruntergeladene Datei verwenden. Oder Sie können einen Stream mit Curl behandeln.
Ressourcen:
Wenn Sie LWP installiert haben, wird eine Binärdatei mit dem Namen " GET " bereitgestellt .
$ GET http://example.com <! DOCTYPE HTML PUBLIC "- // W3C // DTD HTML 4.01 Transitional // EN"> <HTML> <KOPF> <META http-equiv = "Inhaltstyp" content = "text / html; charset = utf-8"> <TITLE> Beispielwebseite </ TITLE> </ HEAD> <body> <p> Sie haben diese Webseite erreicht, indem Sie "example.com" eingegeben haben. & quot; example.net & quot;, & quot; example.org & quot; oder & quot; example.edu & quot; in Ihren Webbrowser. </ p> <p> Diese Domainnamen sind für die Verwendung in der Dokumentation reserviert und nicht verfügbar für die Registrierung. Siehe <a href="http://www.rfc-editor.org/rfc/rfc2606.txt"> RFC 2606 </a>, Abschnitt 3. </ p> </ KÖRPER> </ HTML>
wget -O-
, curl
Und in lynx -source
ähnlicher Weise verhalten.
Sie können die Rohdaten verwenden curl
oder wget
abrufen oder w3m -dump
eine schöne Textdarstellung einer Webseite erstellen.
$ foo=$(w3m -dump http://www.example.com/); echo $foo
You have reached this web page by typing "example.com", "example.net","example.org" or "example.edu" into your web browser. These domain names are reserved for use in documentation and are not available for registration. See RFC 2606, Section 3.