Wie kann ich den Graustufenseitenhintergrund eines PDF-Dokumentenscans entfernen, während der Text erhalten bleibt? (Binarisierung)


9

Mein PDF enthält 600 Seiten mit Textbildern. Es hat 2 Schichten .

  • Schicht 1: Hintergrundfarbbild

  • Ebene 2: Textbild

Ich möchte alle Hintergrundbildebenen in der gesamten PDF-Datei entfernen, wie im Bild gezeigt.

Geben Sie hier die Bildbeschreibung ein

Können Sie mir eine Software / ein Tool vorschlagen?

Geben Sie hier die Bildbeschreibung ein


Welche Ubuntu-Version verwenden Sie?
Mitch

Ubuntu 13.10, 64-Bit.
Raghu G

Fragenbeschreibung aktualisiert.
Raghu G

Antworten:


9

Überblick

Was Sie suchen, sind Tools wie Scan Tailor und Unpaper , die in der Lage sind, Schwellenwerte zu erreichen , zu entflecken und Rauschen zu entfernen . Beide Tools arbeiten mit Bildern und nicht mit PDF-Dateien. Mit den am Ende dieser Antwort beschriebenen Tools können Sie jedoch problemlos zwischen den verschiedenen von diesen Anwendungen verwendeten Formaten und PDF konvertieren.

ScanTailor

Ein Video-Tutorial finden Sie hier . Eine ausführlichere Dokumentation finden Sie im offiziellen Wiki . Sie werden wahrscheinlich am meisten an der Seite über den Schwarzweiß-Ausgabemodus und die Filtereinstellungen interessiert sein .

Papier entfernen

Ich habe nicht mit gearbeitet unpaper mir selbst gearbeitet. Soweit ich weiß, bietet es weitaus mehr Funktionen als ScanTailor, ist aber auch viel schwieriger zu beherrschen.

Es gibt keine GUI-Oberfläche und Sie müssen sich auf Befehlszeilenoptionen verlassen, um Ihre Arbeit zu erledigen. Auf der anderen Seite bedeutet dies, dass Konvertierungen mit unpapereinfach mithilfe von Skripten automatisiert werden können.

Sie können einige Skriptbeispiele in Bezug auf die Umwandlung eines Scan in Schwarz-Weiß und Entfernen der Hintergrund finden hier .


Einige hilfreiche Tools für die Arbeit mit Unpaper und ScanTailer

Ich habe nicht genug Zeit, um ein vollständiges Tutorial zu ScanTailor und unpaper¹ zu schreiben, aber hier sind einige Hinweise zum Konvertieren zwischen .pdfund den von diesen Tools unterstützten Bildformaten:

  • Sie können pdfimagesPDF-Dokumente in Einzelseitendateien .ppmkonvertieren, die von gelesen werden können unpaper.

    Anwendungsbeispiel:

    pdfimages *.pdf ./extracted-images
  • ScanTailor nimmt keine .ppmDateien als Eingabe. Sie müssen sie zuerst in ein anderes Format wie das verlustfreie konvertieren .png. mogrifyaus der imagemagickTool-Suite kann dies für Sie tun.

    Anwendungsbeispiel:

    mogrify -format png *.ppm
  • Das Ausgabeformat von ScanTailor und Unpaper sind Einzelseitendateien .tiff. Um sie wieder zu konvertieren, .pdfwürde ich vorschlagen, tiffcpund zu verwenden tiff2pdf.

    Anwendungsbeispiel:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Installation

Dieser Befehl installiert alle oben genannten Tools:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Wenn Sie dies lesen, können Sie gerne eine ausführlichere Antwort basierend auf ScanTailor und / oder Unpaper erstellen.


Scantailer funktioniert aber bei PDF-Dateien. Sie müssten es zuerst in ein Bildformat umwandeln.
Zu tun

@ ToDo Ja, wie in der Antwort angegeben :).
Glutanimate

Ich erkannte jetzt. Es ist besser, die Antwort so zu organisieren, dass sich alle Informationen zu jedem Programm in einem Block befinden.
Zu tun

@ToDo Der ursprüngliche Grund, warum ich die Werkzeuge in einen Spearate-Bereich gestellt habe, war, dass sie sowohl für Unpaper als auch für Scantailor relevant waren. Sie haben Recht, es war ein bisschen unorganisiert. Ich denke, es sollte jetzt besser sein
Glutanimate

3

Ich habe gerade eine sehr einfache Lösung gefunden:

  • installieren gscan2pdf.

  • Öffnen Sie gscan2pdfdas PDF und importieren Sie es.

  • Werkzeuge-> Schwelle. Der Standardwert von 80% hat bei mir gut funktioniert.

  • Speichern Sie das PDF an einem anderen Ort.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.