Ich möchte den Text mit Python aus einer HTML-Datei extrahieren. Ich möchte im Wesentlichen die gleiche Ausgabe, die ich erhalten würde, wenn ich den Text aus einem Browser kopieren und in den Editor einfügen würde.
Ich hätte gerne etwas Robusteres als die Verwendung regulärer Ausdrücke, die bei schlecht geformtem HTML fehlschlagen könnten. Ich habe viele Leute gesehen, die Beautiful Soup empfohlen haben, aber ich hatte ein paar Probleme damit. Zum einen wurden unerwünschte Texte wie JavaScript-Quellen erfasst. Außerdem wurden HTML-Entitäten nicht interpretiert. Zum Beispiel würde ich erwarten, & # 39; in einer HTML-Quelle, die im Text in ein Apostroph konvertiert werden soll, als hätte ich den Browserinhalt in den Editor eingefügt.
Update html2text
sieht vielversprechend aus. Es behandelt HTML-Entitäten korrekt und ignoriert JavaScript. Es wird jedoch nicht genau Klartext erzeugt. es erzeugt einen Abschlag, der dann in einfachen Text umgewandelt werden müsste. Es enthält keine Beispiele oder Dokumentation, aber der Code sieht sauber aus.
Verwandte Fragen: