Hauptantwort
Da ich an der gleichen Art von Arbeit interessiert bin (obwohl nicht unbedingt, um die PDF-Dateien zu OCR, sondern um sie in DjVu und dann in OCR zu konvertieren ), fand ich diese Frage und die fehlenden Antworten (da ich die DPI der erraten musste Bilder mit der Anzahl der Pixel und verwenden Sie dann die Größe als Ausgabe durch pdfinfo
oder andere Tricks - ganz zu schweigen davon, dass die Bilder in einem PDF unterschiedliche Dichten haben können usw.).
Nach vielen weiteren Recherchen stellte ich fest, dass Sie pdfimages
(aus Paket- Poppler-Utils ) wie folgt verwenden können:
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
Beachten Sie das x-ppi
und y-ppi
in der obigen Auflistung. Außerdem wird das Format aufgelistet, in dem die Bilder in der PDF-Datei gespeichert sind. Dies ist cool (manchmal ist es JBIG2, manchmal JPEG2000 usw.).
Hinweis: Die Datei deptest.pdf
verwendet oben ist verfügbar von pdfsizeopt
‚s - Repository .
Die wahre Aktion
Danach können Sie die Bilder einfach mit sich pdfimages
selbst extrahieren oder pdftoppm
(auch aus poppler-utils
) verwenden, um ganze Seiten in vielen Formaten zu rendern, die Sie mögen (z. B. tiff, zum Scannen mit tesseract
).
Sie können Folgendes verwenden (vorausgesetzt, Sie haben ein Verzeichnis mit dem Namen erstellt, imgs
in dem Sie Ihre Bilder ablegen):
pdfimages -png Faraway-PRA.pdf imgs/prefix
Die Dateien werden im Verzeichnis imgs
mit Namen erstellt, die mit beginnen prefix
, wie in:
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
Sie können dann jede Operation durchführen, die Sie für geeignet halten, mit Werkzeugen wie scantailor
oder was auch immer Sie möchten.
Direktere Antwort
Wenn Sie nur eine PDF-Datei OCR- fähig machen möchten, können Sie ein gut gepflegtes und bereits gepacktes Programm verwenden, nämlich ocrmypdf .
x-ppi
(x Auflösung in DPI) undy-ppi
(y Auflösung in DPI) NICHT in älteren Versionen angezeigt werden,pdfimages
die beispielsweise mit Ubuntu 14.04 geliefert werden. Was unter Ubuntu 18.04 verfügbar ist, enthält diese Werte jedoch.pdfimages -v
auf meinem Ubuntu 18.04 Maschine zeigt habe ich Version 0.62.0, die macht diese Funktionen haben.