Hier ist eine Möglichkeit, die einige weniger gebräuchliche Werkzeuge erfordern würde:
- ocrodjvu
- pdfbeads , das hat seine eigenen Anforderungen, die von Google gefunden werden können
Wir können den djvu2hocr
Befehl (from ocrodjvu
package) verwenden, um verborgene Textebenen aus der DjVu-Datei zu extrahieren (es wird keine OCR oder ähnliches ausgeführt, es werden nur Textebenen mit Geometrie extrahiert), dh:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
Intervention korrigiert Klassennamen in Ausgabe-HOCR (die nur einfache HTML-Datei ist)
Nun extrahieren wir die DjVu-Seite in das TIFF-Format mit:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
so dass wir mit dieser Datei in unserem Arbeitsordner enden:
sample.djvu
pg10.html
pg10.tif
Hier pdfbeads
kommt das Spiel ins Spiel und wir führen einfach aus:
pdfbeads -o pg10.pdf
Dann kümmert sich dieses raffinierte Programm um alles, was sich in diesem Ordner befindet (HTML- und TIFF-Dateien mit demselben Basisnamen) und erzeugt eine Ausgabe-PDF-Datei mit einigen Nebenprodukten:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
Das ist identisch mit der Eingabe-DjVu-Datei und enthält eine Textebene:
Zusammenfassung der Kommentare:
In den folgenden ausführlichen Kommentaren wird erläutert, wie kleinere Bilder von der DjVu-Dokumentseite als separate Objekte dargestellt werden. Dies ist nicht einfach möglich, da die DjVu-Dokumentseite selbst nur ein einzelnes Bild mit optionaler Textebene ist und keine "Informationen" zu kleineren Bildern als separate Objekte enthält. Wenn ein DjVu-Dokument Farbbilder enthält, werden diese normalerweise auf der Hintergrundebene platziert. In diesem Fall können Benutzer Tools wie ddjvu
(Nur Hintergrundebene extrahieren) und imagemagick
(Automatisch zuschneiden) verwenden, um nur Bilder statt der gesamten Zeichenfläche auszugeben. Sie können die PDF-Ausgabe jedoch nicht automatisieren
Ein anderer vernünftiger, aber langsamerer Ansatz ist die Verwendung regulärer OCR-GUI-Tools. gscan2pdf
(> 1.0) wird als möglicher Kandidat für einen Linux-PC vorgeschlagen