Wie kann ich die Wortzahl einer PDF-Datei ermitteln? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtwortzahl erhalten möchte, eine eingebettete Textebene haben, sodass ich keine OCR benötige.
Die Aufgabe ergab sich aus der Suche nach wissenschaftlichen Arbeiten bekannter Größe, z. B. 15000 Wörtern. Die meisten Moders Papers werden im PDF-Format veröffentlicht
pdftotext
: Vergiss das e nicht. Und Sie können mit einem einzigen Befehl verwenden:pdftotext myfile.pdf - | wc -w
.