Ich habe eine Reihe von gescannten Dokumenten im PDF-Format und möchte sie durchsuchen können. Wie kann ich das machen?
Im Wesentlichen muss ich das PDF OCR und dann den extrahierten Text wieder in ein neues PDF mischen. Ich habe verschiedene Lösungen erfolglos ausprobiert (einschließlich der unter Hinzufügen von OCR-Informationen zu einer PDF ).
- pdfocr (das gibt mir dieses Problem: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (von dem das Software-Center sagt, dass es ein schlechtes Paket ist und ich es nicht installieren sollte)
- OCRfeeder (im Software Center) exportiert gut nach odt, reagiert aber nicht beim Export nach pdf.
- Gscan2pdf exportiert ein vollständig schwarzes (aber durchsuchbares) Bild, wie in dieser Diskussion angegeben .
- Ich glaube nicht, dass Pdfxchange Viewer es schafft, Dateien über 500 Seiten im Handumdrehen zu bearbeiten.
Gibt es ein Softwarepaket, von dem ich nichts weiß? Oder ein Skript, das das macht?
pdf2searchablepdf
. Es verlässt sich auf tesseract
. Es funktioniert gut. Super einfach zu bedienen. Siehe hier. askubuntu.com/a/1187881/327339