Das Filtern eines halb getönten Bildes für die OCR-Verarbeitung

10

Ich habe ein gescanntes PDF-Material, zu dem ich eine versteckte Textebene hinzufügen möchte, damit ich das Dokument indizieren kann. Ich habe das Ghostscript-Schwarzweiß-TIFF-Ausgabegerät (tiffg4) verwendet, um Seiten als TIFF-Bilder zu extrahieren. Hier ist ein Beispiel dafür, wie sie aussehen:

Geben Sie hier die Bildbeschreibung ein

Die Verarbeitung dieses Bildes mit Tesseract liefert keine guten Ergebnisse.
Das Ändern der Ghostscript-Ausgabe DPI (600, 300, 150, 96) zeigt, dass das Bild mit 96 DPI das beste Ergebnis von Tesseract liefert, aber immer noch nicht zufriedenstellend ist.

Jetzt wollte ich um Rat fragen, welcher Filter dieses Bild für die OCR-Verarbeitung verbessern würde.

Ich könnte imagemagick oder numpy / scipy / ndimage verwenden

image-processing ocr

— Zetah
quelle

9

Was Sie wirklich benötigen, ist wahrscheinlich eine morphologische Operation wie Dilatation, gefolgt von Erosion. Dies wird als Schließvorgang bezeichnet . Kann in Ihrem Fall sein - nur die Erweiterung selbst könnte gut sein.

Zuvor wurde eine ähnliche Frage gestellt, die bei anderen Aspekten hilfreich sein kann.

monochrome (1-Bit-Schwarzweiß-) Bildkonvertierung

Wie rekonstruiere ich Text aus einem Bild nur mit morphologischen Operationen?

— Dipan Mehta
quelle

2

Sie können dies mit einem Tiefpassfilter entfernen. Dies geschieht entweder im Frequenzraum oder nimmt einfach den (Differenz-) Gaußschen Wert des Bildes.

— Christoph Rackwitz
quelle