Aber wie ist das möglich?
Grundsätzlich führt ein Programm OCR für die Eingabedatei durch und platziert dann eine unsichtbare Textebene über dem Bild. Alternativ kann auch eine sichtbare Textebene unter dem Bild platziert werden, um den gleichen Effekt zu erzielen.
Wenn Sie etwas auswählen, spielt das Bild keine Rolle, da die Textebene ausgewählt wird.
Wie kann das geschaffen werden?
Es gibt verschiedene Möglichkeiten. Da Acrobat bereits vorgeschlagen wurde, werde ich einige kostenlose Optionen hinzufügen (und zum Glück sind Sie nicht gezwungen, Windows zu verwenden).
PDF-XChange Viewer
Dies ist ein natives Windows-Programm von Tracker Software . Die Freeware-Version läuft unter Wine einwandfrei, wenn Sie die 32-Bit-Edition in einem 32-Bit-Präfix verwenden. Sie können sie daher unter Windows, MacOS und Linux verwenden. In den letzten beiden Fällen benötigen Sie PlayOnMac bzw. PlayOnLinux.
Hier ist ein Bild von dieser Antwort, die ich auf Ask Ubuntu hinterlassen habe:
OCRmyPDF
Dies ist ein in Python geschriebenes Multiplattform-Programm , das auf Ghostscript, Tesseract und Unpaper basiert. Aus den Dokumenten:
Was macht OCRmyPDF?
OCRmyPDF analysiert jede Seite einer PDF-Datei, um den Farbraum und die Auflösung (DPI) zu bestimmen, die zum Erfassen aller Informationen auf dieser Seite erforderlich sind, ohne dass Inhalte verloren gehen. Es verwendet Ghostscript, um die Seite zu rastern, und führt dann eine OCR-Operation für das gerasterte Bild durch, um eine OCR- „Ebene“ zu erstellen. Die Ebene wird dann wieder auf die ursprüngliche PDF-Datei gepfropft.
Es kann leicht auf Debian- und Ubuntu-Derivaten installiert werden:
apt-get install ocrmypdf
Oder unter macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Unter Windows müssten Sie das Docker-Image verwenden. Einzelheiten finden Sie in den offiziellen Dokumenten.
Die Verwendung ist sehr einfach und ich schlage vor, dass Sie die optionalen Parameter -d
(Deskew) und -c
(Clean) verwenden, um bessere Ergebnisse zu erzielen . Es wird jede Seite begradigen und kleine Punkte / Unvollkommenheiten beseitigen, bevor der OCR-Prozess ausgeführt wird.
Sie können (und sollten) die Sprache bereitstellen -l
.
Hier ist ein Beispiel aus diesem verzerrten Dokument in italienischer Sprache:
Der Befehl, den ich verwendete, war:
ocrmypdf -l ita -d -c input.pdf output.pdf
Online-Tools
Es gibt einige Online-Tools, die dasselbe tun. Bemerkenswert ist, dass PDF24 eine kostenlose webbasierte Version von OCRmyPDF enthält , die ohne Einschränkungen verwendet werden kann.
Siehe auch: