Seit heute weiß ich es: Das Beste für die Textextraktion aus PDFs ist TET, das Toolkit zur Textextraktion . TET ist Teil der PDFlib.com-Produktfamilie.
PDFlib.com ist das Unternehmen von Thomas Merz. Falls Sie seinen Namen nicht erkennen: Thomas Merz ist der Autor der "PostScript and PDF Bible".
Die erste Inkarnation von TET ist eine Bibliothek . Dieser kann wahrscheinlich alles tun, was Budda006 wollte, einschließlich Positionsinformationen zu jedem Element auf der Seite. Oh, und es kann auch Bilder extrahieren. Es rekombiniert Bilder, die in Stücke fragmentiert sind.
pdflib.com bietet auch eine weitere Inkarnation dieser Technologie, das TET-Plugin für Acrobat . Und die dritte Inkarnation ist der PDFlib TET iFilter . Dies ist ein eigenständiges Tool für Benutzerdesktops. Beide können (wie bei Bier) kostenlos für private, nicht kommerzielle Zwecke verwendet werden.
Und es ist wirklich mächtig. Viel besser als die eigene Textextraktion von Adobe. Es hat Text für mich extrahiert, bei dem andere Tools (einschließlich Adobe) nur Müll ausspucken.
Ich habe gerade das Desktop-Standalone-Tool getestet, und was sie auf ihrer Webseite sagen, ist wahr. Es hat eine sehr gute Kommandozeile. Einige meiner "problematischen" PDF-Testdateien wurden vom Tool zu meiner vollsten Zufriedenheit verarbeitet.
Diese Sache wird von nun an meine Empfehlung für alle anspruchsvollen und herausfordernden Anforderungen an die PDF-Textextraktion sein.
TET ist einfach großartig. Es erkennt Tabellen. In Tabellen werden Zellen identifiziert, die sich über mehrere Spalten erstrecken. Es identifiziert Tabellenzeilen und Inhalte jeder Tabellenzelle separat. Es geht sehr gut mit Silbentrennungen um: Es entfernt Bindestriche und stellt vollständige Wörter wieder her. Es unterstützt Nicht-ASCII-Sprachen (einschließlich CJK, Arabisch und Hebräisch). Bei Ligaturen werden die ursprünglichen Zeichen wiederhergestellt ...
Versuche es.