Ich habe verschiedene Programme ausprobiert: pdftotext, pdf2txt.py, ... Alle können Text aus PDFs extrahieren, aber das, was die bessere Arbeit leistet, ist gut less
: Der Text aus dem PDF hat ein korrektes Layout. Wie macht weniger das? Verwendet es eine Bibliothek oder ist die PDF-Verarbeitung integriert?
Ich frage, weil ich diese Funktionalität programmgesteuert nutzen möchte, ohne unbedingt weniger als externes Programm laufen zu müssen (ich mache Python).
Mein System ist:
» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman
less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less
» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
pdftotext -layout $1 -