Ich habe ein PDF eines gescannten Buches.
Ich suche nach einer kostenlosen Software, die OCR ausführt und dann die Option bietet, sie erneut als PDF oder Dokument zu speichern.
Ist dort eines?
Ich habe ein PDF eines gescannten Buches.
Ich suche nach einer kostenlosen Software, die OCR ausführt und dann die Option bietet, sie erneut als PDF oder Dokument zu speichern.
Ist dort eines?
Antworten:
Sie können die 30-Tage-Testversion von Adobe Acrobat Pro herunterladen und die Funktion "OCR-Texterkennung" verwenden ("Dokument> OCR-Texterkennung> Texterkennung mit OCR ..."). Wählen Sie im Einstellungsdialog 'Durchsuchbares Bild' als Ausgabestil. Dadurch wird das Seitenbild beibehalten, aber der OCR-Text eingebettet, sodass das Dokument durchsucht werden kann und Text ausgewählt, kopiert und eingefügt werden kann.
Nach dem Ausführen der OCR müssen Sie Wörter bestätigen oder korrigieren, bei denen die OCR nicht sicher ist, ob sie die Funktionen zum Auffinden von OCR-Verdächtigen verwenden.
Wenn Sie über ein Google-Konto verfügen, enthält Google Text & Tabellen jetzt die Funktion zum Hochladen einer PDF-Datei und zum Ausführen von OCR.
Ich habe es selbst ausprobiert und es macht einen guten Eindruck auf ein zugegebenermaßen gut formatiertes PDF.
Die Formatierung ist ziemlich zerstört, aber der Text scheint zu überleben.
Die folgenden Produkte wurden im Internet gefunden, aber ich habe sie nicht verwendet.
Online-Texterkennung
OCR-Terminal ist ein Online-OCR-Dienst, der die optische Zeichenerkennung (Optical Character Recognition, OCR) für Ihre gescannten Bilder und PDF-Dateien durchführt und diese in bearbeitbare und in Text durchsuchbare Dokumente umwandelt.
Free-OCR.com ist ein kostenloses Online-OCR-Tool (Optical Character Recognition). Mit dieser Option können Sie OCR für jedes von Ihnen bereitgestellte Bild ausführen.
Dieser Service ist kostenlos, keine Registrierung erforderlich. Wir brauchen auch keine E-Mail-Adresse.
Laden Sie einfach Ihre Bilddateien hoch. Free-OCR benötigt entweder JPG, GIF, TIFF BMP oder PDF ( nur erste Seite ). Die einzige Einschränkung besteht darin, dass die Bilder nicht größer als 2 MB, nicht breiter oder höher als 5000 Pixel sein dürfen und es ein Limit von 10 Bilduploads pro Stunde gibt.
Maestro Recognition Server ist kommerziell, verfügt jedoch über eine Online-Demo zum Ausprobieren.
Gratis Software
FreeOCR - nur für Bilder.
FreeOCR ist ein Scan- und OCR-Programm, das die Tesseract-freie OCR-Engine enthält, die auch als Tesseract-GUI bezeichnet wird. Es enthält ein Windows-Installationsprogramm und ist sehr einfach zu verwenden und unterstützt mehrseitige Tiff-Dateien, Faxdokumente sowie die meisten Bildtypen, einschließlich komprimierter Tiff-Dateien, die die Tesseract-Engine allein nicht lesen kann. Es verfügt jetzt über Twain-Scanning.
pdfsandwich - pdf -> pdf konverter.
pdfsandwich ist ein Befehlszeilenprogramm für OCR-gescannte Bücher oder Zeitschriften. Es ist in der Lage, das Seitenlayout auch für mehrspaltigen Text zu erkennen.
Pdfsandwich ist im Wesentlichen ein Wrapper-Skript, das die folgenden Binärdateien aufruft: convert, cuneiform, gs und hocr2pdf. Es ist für die Ausführung auf Unix-Systemen bekannt und wurde unter Linux und MacOS X getestet. Es unterstützt die parallele Verarbeitung auf Multiprozessorsystemen.
Keilschrift + hocr2pdf + Ghostscript : Eine DIY Open-Source-Lösung.
Ich habe eine Antwort gepostet, in der ich eine Lösung für das Zusammenstellen der PDF-Seiten mit einer Version des jetzt quelloffenen Keilschrift- OCR-Systems und hocr2pdf zusammen mit Ghostscript skizzierte .
Das war speziell für Linux, aber Sie können Cuneiform und Ghostscript auch für Windows bekommen. Ich bin mir jedoch nicht sicher, ob es sich um hocr2pdf oder ein gleichwertiges handelt.
Hierbei handelt es sich um eine sehr seltsame Methode, bei der Google den Index und die Texterkennung für Sie auf einer Website anzeigen und dann abrufen muss.
Installieren Sie Imagemagick . Öffnen Sie ein Cmd-Fenster oder ein Terminal:
convert myfile.pdf myfile-%02d.jpg
Die Ausgabe ist 1 JPG-Datei für jede Seite in Ihrem PDF, myfile-00.jpg, myfile-01.jpg usw.
Übergeben Sie jedes Bild durch ein OCR-Programm. Ich habe nicht viel Erfahrung damit, aber es scheint eine Menge Möglichkeiten zu geben.
Konvertieren Sie jede Textseite zurück in ein PDF. Sie können dies mit imagemagick erneut tun, aber es gibt auch andere Möglichkeiten:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Ihre Anfrage scheint eine komplizierte Lösung des Problems zu sein, obwohl ich das Problem möglicherweise nicht richtig verstehe. Jedenfalls:
Warum nicht einen PDF-Writer kaufen, mit dem Sie die Daten direkt auf der PDF-Seite eingeben können?
Probieren Sie PDFCubed.com aus. Es muss nichts installiert werden, alles erfolgt online. Sie können Ihre Dokumente zur Verarbeitung über das Internet, per E-Mail oder über die Dropbox senden. Gescannte PDFs und TIFs werden in durchsuchbare Text-PDFs konvertiert und können dann über das Internet, per E-Mail oder über die Dropbox abgerufen werden.