Tesseract
Ab 2018 ist Tesseract 4 (Beta) mit seinem neuen LSTM-OCR-Modell für neuronale Netze die beste verfügbare Open-Source-OCR-Software . Die OCR-Leistung ist viel besser als beim vorherigen OCR-Modell in Version 3.
Beispiel (PDF-Datei output.pdf
mit Textebene für ein gescanntes deutsches Dokument erstellen ):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
Drucken Sie den erkannten Text auf stdout:
$ tesseract --oem 1 -l deu page page-0001.png stdout
Liste installierter Sprachen:
$ tesseract --list-langs
Unterstützung für ziemlich viele Sprachen / Skripte gibt es in Form eines herunterladbaren trainierten Datensatzes , zB gibt es sogar einen Datensatz für Fraktur.
Mit dem neuen LSTM-Modell lässt sich Tesseract vom Forschungsprojekt OCRopus inspirieren .
Die Tesseract-Version 3 bietet selbst bei hochwertigen Eingabebildern eine relativ schlechte Leistung, dh, sie erkennt fälschlicherweise einzelne Zeichen in Staubpixeln (außerhalb eines beliebigen Textkontexts) und fügt in bekannten Wörtern leicht einzelne Zeichenfehler ein.
Keilschrift
Die Leistung von Cuneiform OCR ist nicht so schlecht, wird aber nicht aktiv gewartet (letzte Version im Jahr 2011, Version 1.1) und stürzt leicht ab und weist einige andere Probleme auf:
Sie können den Layout-Algorithmus wie folgt deaktivieren:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
Gibt die Sprache des Quelldokuments an.)
ocrad
$ ocrad -F utf8 image-0001
Der Text wird standardmäßig in Standardausgabe gedruckt.
In einem Geschäftsdokument fehlte ein unterstrichenes Wort, in dem Keilschrift / Tesseract / Gocr nicht vorkam.
gocr
$ gocr image-0001
Der Text wird standardmäßig in Standardausgabe gedruckt.
Hardware
Sane bietet eine sehr gute Unterstützung für viele Scanner mit automatischem Dokumenteneinzug (ADF), z. B. für die Scanner von Avision und Fujitsu .
In Sane ist das scanimage
Kommandozeilenprogramm enthalten, mit dem Sie geskriptete Scan-Pipelines erstellen können (vgl. ZB mein adf2pdf.py
Skript).