Angenommen, Sie haben 2 "gescannte" PDF-Dateien.
- Groß, aber ohne Textebene.
- Kleiner (mit Bildern von geringerer Qualität), aber mit korrekter Textebene.
Beide Dateien enthalten gleiche Bilder, die sich nur durch ihre Komprimierung unterscheiden.
Ziel ist es, die gleiche Textebene in das 1. PDF einzubetten .
"Just OCR 1st file" ist keine Lösung. Ich weiß, dass Acrobat (und einige andere Tools) OCR-fähig sind, ohne die Bildebene zu ändern, aber ich bin mit ihrer OCR-Qualität nicht zufrieden.
Ich sehe also zwei Möglichkeiten:
- Export-Import-Textebene irgendwie
- Ersetzen Sie Bilder in der Bildebene irgendwie.
Zum 1. Weg habe ich nichts gefunden. 2. Art und Weise betrifft, so habe ich zwei Werkzeuge gefunden, die ganz in der Nähe sind hocr2pdf und pdf2text , aber sie sind immer noch nicht genug, soweit ich das verstanden. :(
PS: Anwendungsbeispiel:
Ich habe gerade ein anderes Beispiel gefunden, in dem eine solche Operation auf systematische Weise nützlich ist.
Wenn Sie pdf-1 (ohne Textebene) mit der Bildkomprimierung "jpg" gescannt haben, erhalten Sie mit Abbyy finereader das OCR-PDF pdf-2. Es wäre entweder ziemlich groß, wenn Sie eine verlustfreie Bildkomprimierung wählen, oder die Bildqualität wäre erheblich geringer als bei PDF-1. In vielen Fällen empfiehlt es sich, die Quellbildkomprimierung unverändert zu lassen und das Bild nicht erneut zu komprimieren.