tl; dr? Beginnen Sie mit Nuance PowerPDF Advanced.
Ich habe die OCR-Software im Dezember 2014 evaluiert, um mich auf ein großes Projekt vorzubereiten - OCR auf Millionen von englischsprachigen Seiten, die stapelweise erstellt wurden. Wenn Sie bereit sind, ein paar hundert Dollar auszugeben, haben Sie viele Möglichkeiten; Testversionen können Sie durchbringen, wenn Sie nur einige hundert Seiten konvertieren müssen.
Viele Softwarepakete möchten alle Eingabedateien laden, OCR durchführen und das Chaos in einer einzigen Ausgabe zusammenführen. IMHO ist das absolut falsch, ich habe keine Ahnung, wer das wollen würde. Ich suchte nach einem echten Stapel: eine Ausgabedatei für jede Eingabedatei, unbeaufsichtigter Vorgang, halten Sie für nichts an, geben Sie mir am Ende einen detaillierten Bericht. Spoiler Alarm: Das habe ich nicht gefunden.
Pakete in alphabetischer Reihenfolge folgen. Die unten aufgeführten Preise sind Listen, aber es gibt viele Rabatte. Nehmen Sie meine Kommentare zur Genauigkeit mit einem Körnchen Salz; Ihre Eingaben werden nicht mit meinen Eingaben übereinstimmen, daher wird Ihr Kilometerstand sicherlich variieren.
ABBYY Finereader 12 Corporate: 400 USD. Die Stapelfunktion wird als "Task-Manager" bezeichnet und befindet sich im Menü "Extras". Es verarbeitet Dateien aus einem Ordner, einschließlich Unterordnern. Es wird gerne eine separate Ausgabedatei für jede Eingabedatei erstellt. Es scheint nicht in der Lage zu sein, die Hierarchie der Eingabeordner beizubehalten. Alle Ausgabedateien wurden in denselben Ausgabeordner verschoben. Die Genauigkeit war in meinen Tests hoch, aber immer noch das niedrigste der Pakete, die ich hier aufgelistet habe.
Adobe Acrobat XI: 300 US-Dollar. Die Stapelfunktion heißt "Texterkennung / In mehreren Dateien" und kann durch Klicken auf Extras (dritte Symbolleiste oben rechts im Hauptbildschirm) aufgerufen werden. Verarbeitet Unterordner, eine Ausgabe für jede Eingabe. Stoppt und fordert Sie auf, eine passwortgeschützte Datei zu finden. Der Eingabeverzeichnisbaum wird standardmäßig nicht beibehalten. Sie können dies tun, indem Sie die Ausgabe in denselben Ordner wie die Eingabe schreiben. Die Genauigkeit war in meinen Tests ziemlich gut.
Nuance OmniPage Ultimate (auch bekannt als v19): 500 US-Dollar. Die Batch-Funktion heißt "DocuDirect" und ist ein separates Programm, das mit dem Paket geliefert wird. Es werden Ordner und Unterordner verarbeitet. Wenn Sie die Funktionen genau richtig auswählen, wird der Eingabeverzeichnisbaum im Ausgabebereich beibehalten. Ein Ausgang für jeden Eingang. Stoppt und fordert ein Kennwort für eine geschützte Datei an. Scheint Multi-Core-Prozessoren hervorragend zu nutzen, um Aufgaben parallel auszuführen. Die Genauigkeit war ausgezeichnet . Die Stabilität des Stapelverarbeiters ist jedoch schlecht. Ein unscharfes Dokument stoppt es in seinen Spuren, um es niemals wiederherzustellen, und entgleist mühelos einen Stapel.
Nuance PowerPDF Advanced v1.1 (Nachfolger von OmniPage Ultimate): 150 US-Dollar. Die Stapelfunktion heißt "Stapelkonverter" und ist über das Hauptprogramm auf der Registerkarte "Erweiterte Verarbeitung" erreichbar. Es werden Ordner und Unterordner verarbeitet, wobei die Eingabestruktur in der Ausgabe erhalten bleibt. Ein Ausgang für jeden Eingang. Verwendet mehrere Kerne, aber nicht aggressiv; Das bedeutet, dass ich es nicht schaffen konnte, einen Multi-Core-Host zu sättigen. Die Genauigkeit ist hervorragend , genauso gut oder besser als bei OmniPage. Durch fehlerhafte oder unscharfe Dateien wurde es nicht hängen gelassen. Der Stapelverarbeiter schreibt ( schockiert ) eine Nur-Text-Protokolldatei in das Ausgabeverzeichnis.
ReadIris Corporate 14: 600 US-Dollar. Die Stapelfunktion wird durch das Element "Stapel-OCR" aufgerufen, das durch Klicken auf die Schaltfläche "Aus Dateien" im Hauptbildschirm angezeigt wird. Es werden Ordner und Unterordner verarbeitet, eine Ausgabe für jede Eingabe, und standardmäßig stimmt die Ausgabeverzeichnisstruktur mit der Eingabeverzeichnisstruktur überein. Stoppt und fordert Benutzereingaben für eine ungültige Datei an. verarbeitet ohne weitere Beanstandung alle geschützten Dokumente offenbar durch OCR-Aufnahme des Bildes. Die Genauigkeit war sehr gut, genau wie bei Acrobat.
Auf meinem Desktop-Computer (nur Dual Core) mit den von mir ausgewählten Eingaben benötigte jedes Paket mindestens 3 Sekunden, um eine Seite zu verarbeiten. einige nahmen mehr. Könnte in der Lage sein, dies auf einer Maschine mit mehr Kernen herunterzufahren.
Es gibt viele Fallstricke. Planen Sie sie unbedingt ein: ungültige PDFs (einige Pakete werden angehalten), passwortgeschützte PDFs (einige Pakete werden angehalten, andere werden sowieso konvertiert!) Und gedrehte Seiten (Querformat statt Hochformat). Wenn Sie möchten, dass der Stapel vollständig ausgeführt wird, müssen Sie den Eingabebereich für diese Pakete sehr, sehr sorgfältig vorbereiten. In der Print-to-PDF-Funktion des GhostScript-Pakets finden Sie Informationen zum Entfernen des Schutzes vor PDFs.
Das Ausführen großer Stapel kann zu Speicherauslastung und Problemen beim Aufhängen führen, auch wenn dies nicht der Fall sein sollte (argh - wahrscheinlich Speicherlecks). Wenn Sie überhaupt irgendeine Art von Automatisierung durchführen, besteht ein großes Problem darin, nachträglich herauszufinden, was wirklich passiert ist - welche Dokumente nicht verarbeitet werden konnten, welche während der Verarbeitung fehlgeschlagen sind usw. Es ist, als hätten die Leute von Desktop-Software noch nie von etwas gehört, das als a bezeichnet wird "Logdatei".
Schließlich ist es für diese Massenmarktpakete ziemlich schwierig, selbst als zahlender Kunde Unterstützung zu erhalten. Zum Beispiel habe ich mich bei einem angesehenen Kundendienstmitarbeiter über ein Paket (das namenlos bleiben soll) beschwert, das für einige große Eingaben hängt. Ich habe 36 Stunden gewartet, bevor ich aufgegeben habe :). Sie schlugen süß vor, die Stapelgröße auf 300 Dokumente zu beschränken. Das war für mich einfach völlig inakzeptabel, aber hey, das Support-Ticket wurde schnell geschlossen, oder? Und das ist alles was zählt, oder? Seufzer.
HTH