Ich verwende pdftotext
, um eine ASCII-Version eines PDF-Dokuments (erstellt mit LaTeX) zu erstellen, da Mitarbeiter ein einfaches Dokument in MS Word bevorzugen.
Die Klartextversion, die ich sehe, sieht gut aus, aber bei näherer Betrachtung scheint das f-Zeichen häufig falsch konvertiert zu sein, je nachdem, welche Zeichen folgen. Zum Beispiel scheinen fi und fl oft ein spezielles Zeichen zu werden, das ich hier einzufügen versuche: fi und fl.
Was ist der beste Weg, um die Ausgabe von pdftotext zu bereinigen? Ich denke, es sed
könnte das richtige Werkzeug sein, aber ich bin mir nicht sicher, wie ich diese Sonderzeichen erkennen soll.
pdftotext
von Poppler, nicht wahr pdftotex
?
ebook-convert
von Calibre ( calibre-ebook.com ) in Betracht, anstatt pdftotext
. Es ermöglicht die Ausgabe von einfachem Text (und einer Vielzahl anderer Formate) und verwaltet Ligaturen für Sie.
siunitx
und glossaries
, und daher scheint es die beste Lösung zu sein, über das PDF zu gehen. Ich wünschte, es gäbe einen besseren Weg.