Wie konvertiere ich eine gescannte PDF in eine PDF mit Text


36

Ich habe ca. 80 Seiten in Graustufen-PDF (Bildformat) gescannt. Die Endgröße der Datei beträgt ca. 70 MB, was sehr groß ist.

Jetzt suche ich nach einer Methode, um die bildbasierte Graustufen-PDF-Datei in eine einfache textbasierte Schwarzweiß-PDF-Datei umzuwandeln.

Ich habe viele Versuche mit, gsaber ohne Erfolg gemacht (nur ein paar Prozent Erholung). Wenn ein Experte eine Idee hat, lassen Sie es mich bitte wissen.


1
Sie benötigen ein OCR-Tool. Schauen Sie sich Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.

4
Wenn Sie die PDF-Bilder unverändert lassen und Text hinzufügen möchten, lesen Sie die Frage Hinzufügen von OCR-Informationen zu einer PDF-Datei .
Colan

Wenn Sie einen Link zu einem (zum Beispiel) einseitigen Beispiel veröffentlichen könnten, könnten wir Lösungen testen ...
Rmano

Es ist keine OCR-Lösung, aber askubuntu.com/a/3387/16395 hilft viel (obwohl 72 dpi etwas zu niedrig ist, habe ich mit 120 bessere Ergebnisse).
Rmano

Funktioniert YAGF korrekt mit Ubuntu 16.04? Wenn ich ein Bild oder ein PDF-Dokument lade, bricht das Programm ohne Fehlermeldung ab. Unter Ubuntu 14.04 hatte ich keine Probleme. H.Roos
Hubert Roos

Antworten:


25

gImageReader ist ein einfaches GTK + Frontend zu tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

Entschuldigung für den deutschen Text


4
Sie sollten auch die Sprache des Dokuments installieren, um die Texterkennung zu verbessern sudo apt-get install tesseract-ocr-[lang], indem Sie langdurch den Sprachcode ersetzen , z. B. deuDeutsch, porPortugiesisch usw.
estibordo

1
Diese Software ist hässlich. Usability ist unter Null. Es versucht zwar, die Aufgabe zu erledigen, kann jedoch keine einfachen Tabellen wie Tabellenkalkulationen lesen. Vermisst nur die Seiten, die sie enthalten.
Max Yudin

9

Sie können pdfocr ausprobieren:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Die Syntax auszuführen ist

 pdfocr -i input.pdf -o output.pdf

wo input.pdfist der Name der Eingabedatei und output.pdfder Ausgabedatei.

Standardmäßig wird Tesseract verwendet. So installieren Sie es:

 sudo apt-get install tesseract-ocr

pdfocr erstellt eine eingebettete Textebene.


Groß! Interessanterweise kann die Datei nach Ausführung der obigen Schritte in Adobe Acrobat DC durchsucht werden, nicht jedoch in der Vorschau.
Lukeaus

2
Dieses Repository unterstützt kein xenial
Max N

Sie können versuchen, eine alte Version von pdfocr zu installieren. Wenn Sie eine schlauere Version auf xenial installieren, funktioniert dies in Ordnung. Fügen Sie dazu "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" und "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" zu /etc/apt/sources.list und dann hinzu "sudo apt update" und "sudo apt-get pdfocr installieren"
rafmunozf

2
pdfocr ist ein Skript, das den folgenden Prozess automatisiert: 1. Aufteilen der PDF-Datei in separate Seiten mit pdftk 2. Extrahieren der Bilddaten mit pdfimages 3. Ausführen von OCR (optische Zeichenerkennung) mit Cuneiform 4. Einbetten des erkannten Texts zurück in das PDF-Datei mit hocr2pdf 5. Zusammenführen der Dateien mit pdftk. ( Zitiert aus ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell

3
pdfsandwich

Es lädt Tesseract und andere bei der Installation. Es ist eine einfache Ein-Schritt-Lösung und kann als Skript erstellt werden. Es kann verwendet werden hocr2pdf, um eine PDF-Datei im Nur-Text-Format zu erstellen, ist jedoch noch nicht für die Hauptsendezeit bereit. Der Standard verwendet tesseract und erstellt ein "sandwiched" pdf: Bild + Text darunter.

Das eingebettete Bild kann mit folgenden Befehlen entfernt werden:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

Der Text ist jedoch ausgeblendet, sodass er wie eine leere Seite aussieht.

Das Laden der PDF in LibreOffice Drawmacht den Text sichtbar und das Bild kann manuell gelöscht werden.


Was tun wir , um imagemagick / ghost Fragen der Sicherheit zu führen not authorizedFehler in identify-im6.q16wie folgt aus : imagemagick - convert: nicht autorisierte aaaa@ Fehler / constitute.c / Readimage / 453 - Stapelüberlauf
nealmcb

1

Für die von @AB unter Ubuntu 14.04 vorgeschlagene grafische Oberfläche sollten Sie Folgendes beachten:

ocr tesseract on ubuntu 14.04

Oder fügen Sie der Repository-Liste Folgendes hinzu:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

bevor dies funktioniert:

sudo apt-get install gimagereader


-1

Klicken Sie in Ihrer PDF-Datei mit der rechten Maustaste und speichern Sie jede Seite als Bild (oder suchen Sie ein Tool, mit dem alle Seiten automatisch erstellt werden).

Öffnen Sie das Ubuntu Software Center. Suche nach tesseract. Dadurch wird YAGF gefunden, das Sie installieren sollten. Klicken Sie in YAGF auf Datei -> Bild öffnen und laden Sie Ihr Bild. Klicken Sie dann auf Datei -> Erkennen.

Ich hatte 100% Genauigkeit in meinem ersten Test.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.