Wie konvertiere ich HTML in Text?


12

Wie ist es möglich, HTML unter Linux in eine Textdatei zu konvertieren? Zum Beispiel möchte ich curleine Abfrage an Google senden, dann die Ausgabe-HTML in Text konvertieren und konvertierten Text auf meinem Terminal lesen. Ich benutze RHEL6.

Antworten:


11

Ich glaube nicht, dass Curl einen eingebauten HTML-Prozessor hat. Jedoch:

lynx --dump <URL>

macht den Trick.

Wenn Sie weiterhin Curl verwenden möchten, können Sie html2text(verfügbar in Ubuntu) verwenden.


FYI lynx erwartet / dokumentiert ein einzelnes -als Optionspräfix. Obwohl es eine --gute Sache verarbeiten wird .
ocodo

6

Sie können installieren html2text(einen erweiterten HTML-zu-Text-Konverter) und die Verwendung ist unkompliziert:

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

Installation durch:

  • Linux: apt-get install html2text
  • OS X: brew install html2text

Beispiel mit curl:

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.