Was ist die beste und einfachste OCR-Lösung?


77

Ich möchte eine gute Menge an Papieren, die ich herumliegen habe, mit dem geringstmöglichen Aufwand scannen. Ich möchte sie mit Simple Scan in Bilder konvertieren und sie dann mit OCR in Text konvertieren. Gibt es eine gute OCR-App mit einer grafischen Benutzeroberfläche, die auf Knopfdruck gute Ergebnisse liefert?


Wir brauchen wirklich viel Nacharbeit in diesem Thread. So viele alte / abgewertete / ... Dinge. Keine Einzeilentests. Meist kopierte Ergebnisse / Listen hier. Keine Qualitätssicherung.
Léo Léopold Hertz 준영

2018 verwendet die mit Abstand einfachste OCR-Lösung eine Online-OCR-API : Google Vision OCR, Azure OCR oder die kostenlose OCR.space OCR-API liefern qualitativ hochwertige OCR-Ergebnisse - natürlich nur, wenn Ihre Anwendung / Ihr Anwendungsfall eine Cloud-Lösung zulässt .
Nic Endo

Antworten:


70
  • GOCR from ist ein OCR-Programm (Optical Character Recognition). Es konvertiert gescannte Textbilder zurück in Textdateien.

  • CLARA ist eine weitere gute grafische Option.

  • OCRAD from is a OCR kann als eigenständige Konsolenanwendung oder als Backend für andere Programme verwendet werden.

  • KOOKA von ist eine KDE-Anwendung, funktioniert aber einwandfrei. Außerdem müssen Sie aktuelle OCR-Programme wie GOCR und OCRAD installieren. Nach der Installation von Kooka und den OCR-Programmen müssen Sie Kooka auf den OCR-Installationsort verweisen, damit Kooka installiert werden kann Konvertieren Sie das JPEG in Text.

  • OCRFeeder von ist ein System zur Analyse des Dokumentenlayouts und zur optischen Zeichenerkennung.

  • Tesseract aus ist Befehlszeilenprogrammund es ist sehr einfach zu use.You Sprachpaket installieren können tesseract-ocr-ger von hier .

Schauen Sie sich diese Seite an .

Hinweis:
Um tesseract goto terminal auszuführen, geben Sie Folgendes ein

tesseract imagefile.tif outputfile.txt

Tesseract kann nur eine TIFF-Datei lesen - wenn Sie eine JPEG- oder PDF-Datei haben oder was auch immer, müssen Sie sie konvertieren. Außerdem muss die Dateinamenerweiterung .tif und nicht .tiff lauten, da sonst Fehler behoben werden.


1
Wenn Ihre gesprochene Sprache nicht Englisch ist? gibt es erweiterungen für andere sprachen?
Vassilis,

3
@Vassilis: OCR-Systeme sind sprachunabhängig, da sie keine Wörter, sondern Zeichen erkennen. Wenn Ihr Alphabet jedoch nicht aus lateinischen Zeichen (wie z. B. kyrillisch) besteht, fehlen diese möglicherweise.
OpenNingia

2
@OpenNingia: Die Sprache kann wichtig sein, selbst bei Schreibsystemen, die nur lateinische Buchstaben verwenden. Es hilft der Texterkennung, zwischen mehrdeutigen Buchstaben zu unterscheiden.
Frédéric Grosshans

13
Solche Fragen / Antworten vermasseln wirklich askubuntu. Die Person fragte nach "Was ist die beste und einfachste OCR-Lösung?" Und nicht nach "Was sind alle für Linux verfügbaren OCR-Apps?". Diese Lösung hätte nicht akzeptiert werden dürfen! Wirklich verwirrend und nicht hilfreich.
Alin Andrei

1
Das aktuelle Ubuntu tesseract(3.04.00 unter Ubuntu 15.10) hat keine Probleme mit PNGEingabedateien. Es akzeptiert JPGDateien, liefert aber schlechtere Ergebnisse, als man es von zusätzlichen Komprimierungsartefakten erwarten würde.
Volker Siegel

10

Es gibt nur wenige gängige OCR-Befehlszeilentools, die Sie verwenden können (ich bin mir nicht sicher, ob sie über eine grafische Benutzeroberfläche verfügen):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Auch verfügbar für: Tesseract .NET , Tesseract iOS

    Eine OCR-Engine, die zwischen 1985 und 1995 bei HP Labs und jetzt bei Google entwickelt wurde. Tesseract ist wahrscheinlich die genaueste Open-Source-OCR-Engine, die es gibt.

    Verwendungszweck:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Open-Source-Zeichenerkennung. Es konvertiert gescannte Bilder von Text zurück in Textdateien. GOCR kann mit verschiedenen Frontends verwendet werden, wodurch es sehr einfach ist, auf verschiedene Betriebssysteme und Architekturen zu portieren. Es kann viele verschiedene Bildformate öffnen und seine Qualität hat sich täglich verbessert.

  • OCRopus ™ ( FAQ ) (geschrieben in Python, NumPy und SciPy)

    OCR-System mit Schwerpunkt auf maschinellem Lernen in großem Maßstab zur Behebung von Problemen bei der Dokumentenanalyse, einschließlich steckbarer Layoutanalyse, steckbarer Zeichenerkennung, statistischer Modellierung natürlicher Sprachen und mehrsprachigen Funktionen.

    Die OCRopus-Engine basiert auf zwei Forschungsprojekten: einem Hochleistungs-Handschrifterkenner, der Mitte der 90er Jahre entwickelt und vom US-amerikanischen Volkszählungsamt eingesetzt wurde, und neuartigen Hochleistungs-Layoutanalysemethoden.

    Die Entwicklung von OCRopus wird von Google gesponsert und ist zunächst für die Konvertierung von Dokumenten mit hohem Durchsatz und großem Volumen gedacht. Wir erwarten, dass es auch für viele andere Anwendungen ein hervorragendes OCR-System sein wird.

  • Tessnet2 (Open Source, Texterkennung , Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract ist eine C ++ - Open-Source-OCR-Engine. Tessnet2 ist eine .NET-Assembly, die sehr einfache Methoden zum Ausführen von OCR bereitstellt. Tessnet2 steht unter der Apache 2-Lizenz (wie Tesseract), dh, Sie können es nach Belieben verwenden und es ist in kommerziellen Produkten enthalten.

Einige andere: ABBYY CLI OCR für Linux , Asprise OCR

Eine vollständige Liste finden Sie unter: Liste der optischen Zeichenerkennungssoftware bei Wikipedia

Siehe auch: wanghaisheng/awesome-ocr- Eine kuratierte Liste vielversprechender OCR-Ressourcen bei GitHub.


9

Linux-Intelligent-Ocr-Lösung

Haftungsausschluss - Ich bin eng mit der Entwicklung dieser Open Source-Lösung verbunden

Lios kann Ausdrucke mit einem Scanner oder einer Kamera in Text umwandeln.

Es kann auch Text aus gescannten Bildern aus anderen Quellen wie PDF, Bild oder Ordner mit Bildern erzeugen.

Das Programm ist für Sehbehinderte uneingeschränkt zugänglich.

Da ich eng verbunden bin, würde ich mich über Feedback freuen.


Wo ist Dokumentation zur Verwendung? lios ist nicht so intuitiv wie ich gehofft hatte.
ein Kodierer

Das Projekt ist hierher gezogen .
Suzana

Ist es möglich, es über die Befehlszeile nur im Headless-Modus auf dem Server auszuführen?
Deadlock

8

Gscan2PDF

OCR auf mehrseitigen PDF- oder gescannten Dokumenten

Dies ist wahrscheinlich der einfachste Weg. Gscan2pdf ist ein grafisches Tool, mit dem Sie nicht nur Dateien scannen, sondern auch Dateien importieren und OCR ausführen können. Installieren Sie gscan2pdf von hier Installieren Sie gscan2pdf aus über das Ubuntu Software Center oder führen Sie diesen Befehl in einem Terminal aus:

sudo apt-get install gscan2pdf
  • Führen Sie gscan2pdf aus
  • PDF importieren (Strg + O)
  • Optional: Extras> Aufräumen
  • Wählen Sie "Extras"> "Texterkennung speichern" (Strg + S).

Gscan2PDF kann anpassbare OCR-Engines verwenden, Standard ist tesseract-ocr

Sie können die entsprechende Sprache auswählen. In diesem Fall müssen Sie das tesseract-ocr-LANGPaket installieren , in dem LANGsich der aus drei Buchstaben bestehende ISO 639-2-Sprachcode befindet. Im Moment haben Sie 108 Sprachen auf 16.04 Repo.


Ich kann mit dieser Software nichts anfangen. Überhaupt keine ausreichende Erkennung. Es wäre großartig, Testproben über Apps vor deren Empfehlungen zu erhalten.
Léo Léopold Hertz 준영

Zumindest für gscan2pdf für 16.04 gibt es keine Tastenkombination für Strg + i. Wenn Sie eine PDF-Datei öffnen, werden die zu extrahierenden Seiten korrekt identifiziert, die Auswahl von "OK" führt jedoch zu keinem Ergebnis.
User75505

3

Ich hatte gerade Erfolg (unter 16.04) mit pdfocr.rb . Dies ist im Ubuntu-Wiki aufgeführt

Hier ist ein ppa, aber das Repository für 16.04 wird nicht aktualisiert. Das obige Ruby-Skript von Github funktioniert allerdings noch mit 16.04.

Sie können es von Github herunterladen. Sie müssen die folgenden Pakete installiert haben:

ruby tesseract-ocr pdftk exactimage

Dann machte pdfocr.rb ausführbar und lief:

./pdfocf.rb -i source.pdf -o output.pdf

Optional können Sie den -l LANGParameter verwenden. In diesem Fall müssen Sie das tesseract-ocr-LANGPaket installieren , in dem LANGsich der aus drei Buchstaben bestehende ISO 639-2-Sprachcode befindet. Im Moment haben Sie 108 Sprachen auf 16.04 Repo.


3

Der beste und einfachste Weg, es zu benutzen pypdfocr, ändert das PDF nicht. pypdfocr ist hier ein Link zum Python-Modul.

pypdfocr your_document.pdf

Am Ende haben Sie einen anderen, your_document_ocr.pdfwie Sie es mit durchsuchbarem Text wollen. Die App ändert die Bildqualität nicht. Erhöht die Größe der Datei ein wenig, indem der Overlay-Text hinzugefügt wird.

Ich denke, der Befehl ist ziemlich einfach, da er keine GUI benötigt. Vielleicht ist die Installation von pypdfocr etwas ausführlicher:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Update 3. November 2018:

pypdfocrwird seit 2016 nicht mehr unterstützt und ich habe einige Probleme festgestellt, weil ich nicht betreut wurde. ocrmypdf( Modul erledigt einen ähnlichen Job und kann wie folgt verwendet werden:

ocrmypdf in.pdf out.pdf

Installieren:

pip install ocrmypdf

oder

apt install ocrmypdf

Dies ist ein sehr interessantes Tool, auch wenn OP meiner Meinung nach ein GUI-Tool zur Erstellung einer Textdatei und nicht eines PDF-Sandwichs haben wollte. Es wäre schön, wenn Sie die Projekt-Website einbinden könnten.
Andrea Lazzarotto

@AndreaLazzarotto Ja, ich habe es gesehen, aber da der Befehl so einfach ist, können vermutlich viele Leute das Terminal dafür verwenden. deshalb sollte ich die lösung hier
einfügen

1
Zufällig habe ich kürzlich "ocrmypdf" entdeckt. Hast du es ausprobiert? Es ist sehr nett. :)
Andrea Lazzarotto

@ AndreaLazzarotto scheint eine gute Alternative zu sein, vielleicht möchten Sie eine Antwort posten;) Ich werde es ausprobieren, um zu sehen, wie es funktioniert :)
Eduard Florinescu

@AndreaLazzarotto scheint , ist nicht so einfach ocrmypdf auf Ubuntu zu installieren 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
Eduard Florinescu

3

Nur weil es sehr gut funktioniert und auf jeden Fall in der Liste stehen sollte:

gimageReader
Beispiel aus einem Screenshot:

Bildbeschreibung hier eingeben

Es ist in den Repos (beantwortet am 18.10, benutze es aber schon seit Ewigkeiten)


Als ich gimageReader zum ersten Mal startete, gab es für tesseract die Meldung "Keine Sprachen verfügbar". Die Antwort " Wie installiere ich ein neues Sprachpaket für tesseract? " Wird nicht engals Option aufgeführt ... aber ich habe es ausgearbeitet! :) Laufen sudo apt install tesseract-ocr-engim Terminal hat den Trick gemacht. Es wäre schön, wenn dies in der Hilfedatei von gimageReader oder "README" auf github ... oder irgendwo dokumentiert wäre. Wie hier vielleicht.
Dienstag,

1

gscan2pdf enthält 3 verschiedene OCR-Motoren. Sie können direkt in das Programm scannen oder Ihr PDF in das Programm importieren. Ich habe festgestellt, dass die Tesseract-Engine großartig funktioniert und sehr einfach zu bedienen ist

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.