Zunächst muss man verstehen, was ein PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren. Sie sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält. In den meisten Fällen werden in einem PDF-Dokument nicht einmal Informationen darüber gespeichert, wo ein Wort endet und wo ein anderes beginnt, geschweige denn, dass die Absätze durch weiche oder harte Brüche unterbrochen werden.
(In einigen neueren PDF-Dateien sind Informationen zu diesem Thema gespeichert, aber das ist eine neue Technologie, und Sie haben das Glück, solche PDF-Dateien zu finden. Selbst wenn Sie dies getan haben, weiß Ihr PDF-Viewer möglicherweise nichts davon.)
Wie auch immer, es liegt an Ihrer Software, eine Art "künstliche Intelligenz" zu implementieren, um lediglich aus den Positionen der einzelnen Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Eine andere Software kann dies besser als andere und hängt auch davon ab, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Es ist weitaus besser zu versuchen, das zu erreichen, wenn Sie können.
Die Standardlösung für Ihre Art von Problem besteht darin, Adobe Acrobat Professional (das teure und nicht das kostenlose Lesegerät) zum Konvertieren der PDF-Datei in HTML zu verwenden. Auch das wird nicht zu perfekten Ergebnissen führen.
Es gibt eine kostenlose Software, die zum Extrahieren von Text aus PDFs verwendet werden kann, wobei einige Formatierungen intakt sind. Erwarten Sie jedoch auch hier keine perfekten Ergebnisse. Siehe z. B. Kaliber (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder das AbiWord-Textverarbeitungsprogramm (mit allen aktivierten Import- / Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.
Aber bitte erwarten Sie bei keinem dieser Ergebnisse Perfektion. Du gehst hier gegen den Strich. PDF ist nicht als bearbeitbares Eingabeformat gedacht.