Unter Linux - Wie extrahiere ich Text aus einem .pdf
Text, bei dem es sich wirklich um Text und nicht um ein gescanntes Bild handelt? Ich möchte etwas, das ich in der Befehlszeile / in einem Skript verwenden kann, nicht interaktiv. (Ich möchte nicht in .tif
OCR konvertieren und es verwenden. Text ist bereits in der .pdf
Datei vorhanden. Warum sollten Sie also Ungenauigkeiten durch fehlerhafte OCR einführen?)