Als Fan von Open Source (und Automatisierung) muss ich das nur ungern sagen, aber die besten Ergebnisse, die ich gerade erzielt habe (bei einer ziemlich großen, komplexen PDF-Datei), waren das Öffnen in Adobe Reader und die Auswahl von "Datei" | "Als Text speichern".
(Ich bin für Textanalyseexperimente vorverarbeitet, nicht als Leser, aber ich denke, meine erste und zweite Wahl wären gleich.)
Ich habe die Ausgabe nebeneinander verglichen. Meine zweite Wahl ist ebook-convert.
Adobe : In FF für Seitenumbrüche, in Seitenzahlen belassen, hat Überschriften / Absätze nicht in einzelne Zeilen konvertiert, sondern feste Bindestriche. Junk, der in der PDF-Datei versteckt war, wurde nicht ausgegeben. Die großen Hauptstädte am Anfang von Abschnitten wurden korrekt angezeigt, z. B. "The", nicht "T he" oder sogar "T he".
ebook-convert : Links in Seitenzahlen und etwas versteckter Müll in Kopf- / Fußzeile (aber keine FFs). Konvertiert die meisten Absätze in einzelne Zeilen. Diejenigen, die es verpasst hat, sind jedoch doppelt verteilt! Aufzählungszeichen stimmen nicht immer mit dem Text überein. Richtig "The" am Anfang des Kapitels.
pdftotext (ohne --layout) : Nicht schlecht, Aufzählungszeichen, aber Kopf- / Fußzeilenrauschen. FFs sind da drin. Bindestriche entfernt. Am schlechtesten für große Buchstaben am Anfang des Kapitels: "T \ n \ nhe".
pdftotext (mit --layout) : Ähnlich, aber mehr Einzüge. "D ie" zum Beginn des Kapitels.
pdftohtml >> pdfreflow >> htmltotext : Es wurden Seitenzahlen entfernt, aber immer noch Junk in der Kopf- / Fußzeile. "D ie" zum Beginn des Kapitels. Bindestriche entfernt. (Es werden mehrere Zeilen pro Absatz verwendet, es handelt sich jedoch nicht um dieselben Zeilenumbrüche wie in den anderen Versionen!)