30

Ich habe mehrere tausend Seiten gescannter Buchseiten. Jede Seite wird einzeln als JPG gespeichert. Die Schrift ist klar, aber die Schriftarten variieren und die Seiten enthalten Bilder und Illustrationen.

Ich muss eine Liste aller Wörter in jeder JPG-Datei erstellen. Gibt es ein Befehlszeilentool zum Scannen eines Bildes, in dem die angezeigten Wörter aufgelistet sind? Es muss nicht perfekt gescannt werden, sondern nur eine Schätzung.

command-line ocr

— Dorf
quelle

github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage - das ist die Engine hinter ocrmypdf und im Allgemeinen können Sie weniger Schritte in Ihrem Setup ausführen.

— Oakad

4

Mögliches Duplikat von OCR auf Linux-Systemen

— curiousdannii

2

duplizieren ist ein bisschen alt, neuere Sachen könnten existieren. Ich werde Abstimmung offen lassen.

— Archemar

25

Tesseract ist hier wahrscheinlich die am häufigsten verwendete Lösung. Es ist in den meisten Paket-Repositorys verfügbar, z.

sudo apt install tesseract-ocr

und kann mit verwendet werden

tesseract input.png out.txt

— Nico Schlömer
quelle

19

Installieren imagemagick, pdftotext(in einem Paket gefunden namens poppler-utilsinnerhalb einiger Paketmanager) und ocrmypdf . Letzteres ist eine schnelle (ocr benötigt viel CPU und ist so konfiguriert, dass alle Ihre Kerne verwendet werden), quelloffene und häufig aktualisierte OCR-Software. Dieser Ansatz ist möglicherweise übertrieben, da er tatsächlich versucht, jedem Wort eine Zeichenfolge zuzuweisen, anstatt nur ein Wort zu kennzeichnen, aber ich hatte große Probleme, eine gute und einfach zu verwendende OpenSource-OCR-Software im Allgemeinen zu finden. Dann in dem Verzeichnis, in dem Sie alle Ihre JPGs gespeichert haben:

$ convert *.jpg pictures.pdf
$ ocrmypdf pictures.pdf scanned.pdf
$ pdftotext scanned.pdf scanned.txt
$ wc -w scanned.txt

— rien333
quelle

2

Hierfür wird der unten genannte Tesseract verwendet.

— Exic

ocrmypdfmachte meinen Tag

— Everyday Astronaut

Die Idee, zuerst in PDF konvertieren zu müssen, ist einfach doof. warum kann ich nicht einfach eine jpg-datei eingeben und rohen text rausholen?

— Michael

Sie können eine Bash-Datei verwenden, um alle Befehlszeilen für Sie zu erledigen.

— Projetmbc

7

Bilddatei.png um 480% hochskalieren, zu Graustufen wechseln, mit Weiß auffüllen, schärfen und dann mit tesseract OCR extrahieren. Es funktioniert die meiste Zeit gut, mit Ausnahme von sehr großen Schriftarten und Weiß auf Schwarz. Wenn die Schriftarten sehr groß sind, können Sie nur 200% oder 300% höher skalieren.

 convert -colorspace gray -fill white  -resize 480%  -sharpen 0x1  file.png file.jpg
 tesseract file.jpg file

Das Ergebnis ist in file.txt.

— Eamonn Kenny
quelle

Dies ist, was für mich mit einem sehr kleinen Stück nicht-englischen Text mit winziger Schriftgröße gearbeitet hat. Tolle.

— Avio

0

Für Linux-Benutzer funktioniert nichts so gut wie die Konvertierung von PDF in Docx mit Calibre. https://calibre-ebook.com/download_linux

— Larry Bradley
quelle

0

TL; DR

for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done

#!/bin/bash
# PROGRAM=myocr.sh
if [ "$1" ] && [ -e "$1" ]; then
  TMPF=$(mktemp myocr.sh.XXXXXXXX.tif)
  DEST="$2"
  if [ ! "$DEST" ]; then
    DEST="${1%.*}.txt"
    if [ -e "$DEST" ]; then
      echo "$DEST already exists; please provide a new textfile name" >&2
      exit 1
    fi
  fi
  /usr/bin/convert "$1" -colorspace Gray -depth 8 -resample 200x200 -flatten -alpha Off $TMPF \
  && /usr/bin/tesseract $TMPF "$DEST"
  EX=$?
  /bin/rm -f $TMPF
  [ $EX -eq 0 ] && [ "$TERM" ] && echo "created $DEST"
  exit $EX
else
  echo "Usage: $0 imagefile [textfile]" >&2
  echo " creates a plain text file with the text found in imagefile" >&2
  exit 1
fi

Quelle: https://help.ubuntu.com/community/OCR

— Antonio Feitosa
quelle

Wie verwende ich OCR von der Kommandozeile in Linux?

TL; DR