Durchsuchen Sie PDFs mit nicht standardmäßigen Zeichenkodierungen


19

Bei einigen PDF-Dateien wird beim Kopieren von Text Müll (" mojibake ") erzeugt (obwohl sie in Ordnung sind). Dies macht es unmöglich, sie zu durchsuchen (was auch immer Sie suchen, entspricht nicht dem Müll).

Hat jemand eine einfache Problemumgehung?

Beispiele:

  1. TEAC TV Handbuch EU2816STF (führt zu den oben genannten Problemen in Adobe Reader auf Windows und Mac, funktioniert aber in der Vorschau auf einem Mac)
  2. Leadtek Winfast PVR2 Handbuch (FTP-Link; hat auch Probleme in der Vorschau auf einem Mac)
  3. Swann TV-Tunerkarte Handbuch (FTP-Link; hat auch Probleme in der Vorschau auf einem Mac)
  4. Phonedisc-Lizenzvereinbarung (aus dem inzwischen aufgelösten DTMS )
  5. Vierteljährlicher Fondsüberblick über Macquarie IFP
  6. BAN-TACS Small Business Booklet (archivierte Version)
  7. Flyer zum Osterfest 2004 (auch aus dem Archiv)

Ich verwende Adobe Reader (neueste Version) für Windows. Vielleicht hilft ein alternativer Viewer? Ich suche eine kostenlose Lösung für Windows. Open-Source wäre noch besser.

Bearbeiten: Die Dokumente für das Tool " Multivalent Extract Text" enthalten eine gute Zusammenfassung, warum Probleme auftreten können, z. B .: (zitiertes Dokument, zuletzt geändert im Januar 2006)

  • Text verfügt möglicherweise nicht über eine Unicode-Zuordnung. PDF Type 3-Schriftarten tun dies häufig nicht, und TeX DVI verfügt über Zeichen, die keine Unicode-Entsprechungen aufweisen.
  • Die Unicode-Codierung ist möglicherweise fehlerhaft. Open Office ordnet einige Zeichen demselben Unicode zu, was dazu führt, dass der betreffende Buchstabe gelöscht und verdoppelt wird.

Ich denke, die ultimative Lösung in diesen Fällen wäre, jedes Zeichen in einer Schrift zu markieren, um herauszufinden, welches Zeichen es wirklich ist. Beachten Sie, dass dies einfacher ist, als ein geräuschvoll gescanntes Dokument mit OCR zu versehen, da die genaue Form des Symbols verfügbar ist (bei unendlicher Auflösung, da es sich um ein "Vektor" -Bild handelt).


Mit clipbrd.exe(siehe mydigitallife.info/2008/11/06/… ) können Sie sehen, was sich in der Zwischenablage befindet. Was gibt dir das?
Arjan

@Arjan van Bentem: Es gibt mir genau den gleichen Müll, den ich beim Einfügen in Notepad bekomme.
Hugh Allen

Irgendwelche Details zum Format? Ich bin auf einem Mac, aber ich nehme an, Windows würde Ihnen sagen, ob etwas ein Bild oder ein Text ist, und dann für Text vielleicht auch etwas über die Kodierung verrät?
Arjan

Beispiel für das TV-Handbuch: Dasselbe Problem in Adobe Reader 8.1.2 auf einem Mac, aber keine Probleme mit der Vorschau des Mac zum Kopieren oder Durchsuchen von Text. In den Dokumenteigenschaften wird "Encoding: Custom" für die Schriftarten angezeigt (siehe img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Andere PDF-Dokumente zeigen beispielsweise "Encoding: Ansi" oder "Roman" und haben in Adobe Reader auf einem Mac keine Probleme (z. B. adobe.com/education/pdf/type_primer.pdf ergibt img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).
Arjan

1
Außerdem kann pdftextonline.com weder den Text aus dem TV-Handbuch noch aus dem Phonedisc-Dokument abrufen (hat die anderen nicht ausprobiert). Das Senden an Google Mail und das anschließende Anzeigen als HTML funktioniert jedoch für das TV-Handbuch (genau wie Preview mit diesem Dokument keine Probleme hat) ...
Arjan

Antworten:


3

Vielleicht Foxit Reader ?

Für was es wert ist , ich habe gerade überprüft die PDF Sie mit Safari verbunden 4.0.4 auf Mac OS X 10.6.2 und während es ist einige Engrish , die PDF es einwandfrei ohne Bildschirm „Müll“ macht. Vielleicht haben Sie Unicode-Probleme (häufiger unter Windows als unter Mac OS)?


Der Müll ist nicht auf dem Bildschirm - er befindet sich in der Zwischenablage, wenn ich Text kopiere. Was passiert bei dir, wenn du es versuchst?
Hugh Allen

@Hugh: Funktionen 􏰃 Es handelt sich um ein ferngesteuertes Farbfernsehgerät. 􏰃 100 Programme aus VHF-, UHF-Bändern oder Kabelkanälen können voreingestellt werden. 􏰃 Es können Kabelkanäle eingestellt werden. 􏰃 Die Steuerung des Fernsehgeräts ist durch das menügesteuerte System sehr einfach. 􏰃 Es verfügt über drei Euroconnector-Buchsen für externe Geräte (z. B. Computer, Video, Videospiele, Audiogeräte usw.)
Alex

@Hugh: Die Kugeln werden nicht richtig kopiert, aber der Rest ist. Mit welchem ​​Abschnitt / Seite / Absatz haben Sie ein Problem, und ich werde es versuchen?
Alex

Alles davon. Ich verwende Adobe Reader für Windows. Ich habe gerade auf die neueste Version aktualisiert, was nicht geholfen hat. +1 danke für die Info. Ich denke, Adobe Reader hat einen Fehler, der nicht von der OSX-Entsprechung geteilt wird.
Hugh Allen

4
Ich habe versucht, Foxit Reader und es hat das gleiche Problem. Das Installationsprogramm ist auch sehr aufdringlich und möchte eine Symbolleiste installieren, Ihre Homepage ändern usw. :(
Hugh Allen

3

Die einfachste Möglichkeit, dies zu umgehen, besteht darin, die Datei in einer neueren Version von Google Chrome mit integriertem PDF-Lese-Plugin zu öffnen . Dann können Sie die Suchfunktion von Chrome verwenden, um nach Text zu suchen, und das Kopieren und Einfügen funktioniert ordnungsgemäß.


2

Beispiel für das TV-Handbuch : Dasselbe Problem in Adobe Reader 8.1.2 auf einem Mac, aber keine Probleme mit der Mac-Vorschau zum Kopieren oder Durchsuchen von Text. Wenn Sie es an ein Google Mail-Konto senden und dann "Anzeigen" und dann "Nur HTML" auswählen, wird der Text angezeigt. Aber Adobe Reader mag es nicht.

In den Dokumenteigenschaften wird für die Schriftarten "Codierung: Benutzerdefiniert" angezeigt. Ein anderes Dokument zeigt Dinge wie "Encoding: Ansi" oder "Roman" und weist weder in Preview noch in Adobe Reader auf einem Mac Probleme auf:

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Sowohl das Leadtek- als auch das Swann- Beispiel weisen jedoch Probleme in Preview auf einem Mac und in Google Mail auf und beide zeigen "Encoding: Identity-H". Der Phonedisc- Test schlägt mit "Encoding: Custom" ebenfalls fehl.

Verwirrend und nicht konsistent, aber in einigen Adobe-Foren habe ich die folgende Erklärung für ein weiteres Beispiel gefunden, das "Encoding: Custom" (Hervorhebung von mir) zeigt:

Beim Betrachten der PDF-Datei hat sich herausgestellt, dass keine verwendbaren Codierungsinformationen vorhanden sind (weder in der PDF-Datei noch in den eingebetteten Schriftartdaten), um die Bedeutung der Zeichen / Glyphen abzuleiten, die auf den Seiten des Dokuments angezeigt werden.

Die Schriften sind zwar alle eingebettet, aber alle Kodierungsinformationen wurden entfernt. Dies ist ein typisches Beispiel für eine PDF-Datei, die syntaktisch vollständig mit der PDF-Spezifikation übereinstimmt, bei der jedoch wichtige Informationen zur Bedeutung des darin enthaltenen Texts während der Erstellung der PDF-Datei verworfen wurden. Soweit ich das beurteilen kann, wäre es sehr schwierig, die Codierungsinformationen wiederherzustellen.

Dies erklärt nicht, warum Macs Preview (und anscheinend auch Infix) einige der Beispiele verarbeiten kann, wenn Adobe Reader trotz "Encoding: Custom" fehlschlägt. Vielleicht hat Preview keine Probleme, wenn die genaue Schriftart auf dem Computer selbst vorhanden ist? Oder ist es vielleicht nur eine Vermutung einer Kodierung, die für einige, aber nicht für alle Dokumente funktioniert?

Was auch immer dies verursacht: Wenn die Weitergabe über Google Text & Tabellen oder Google Mail nicht funktioniert, ist es möglicherweise die einfachste (aber alles andere als einfache) Lösung, TIFF zu speichern und dann OCR auszuführen . Dienste wie Evernote tun dies möglicherweise im Handumdrehen (OCR für Bilder; ich bezweifle, dass OCR für PDFs durchgeführt wird).


-1

Der Download von Datei 1 schlug für mich fehl, Datei 2 konnte ich mit xpdf, einem schnellen und quelloffenen PDF-Viewer, öffnen. Ich denke, es kann keine Formulare verarbeiten, aber für reinen Text und Grafiken bevorzuge ich es wegen seiner schnellen Startzeit.


1
Die Frage lautete nicht "Öffnen" der PDFs oder "Öffnen mit schneller Startzeit". Stattdessen ging es darum, keine Textausschnitte von den gerenderten Seiten kopieren und einfügen zu können. Ihre Antwort ist also wahrscheinlich gut, passt aber nicht zu dieser Frage.
Kurt Pfeifle

-2

Leider kann nicht geholfen werden. PDF-Dokumente enthalten eigentlich keine Buchstaben, jedoch Buchstabenformen. Mit anderen Worten, anstatt einen Buchstaben zu lesen und auf dem Bildschirm zu zeichnen, zeichnet Adobe Reader wie jede andere PDF-Leseanwendung einfach die in der Datei codierten Vektorgrafiken .

Einige PDF-Reader verfügen jedoch über eine Software, mit der die Form analysiert und der Text mithilfe der Texterkennung wiederhergestellt werden kann. Es funktioniert genauso, als hätten Sie ein Papier mit gedrucktem Text gescannt und Software wie ABBYY FineReader verwendet, um es wieder in Text umzuwandeln. Aufgrund der unendlich hohen Qualität von Vektorzeichnungen sind die Ergebnisse jedoch in der Regel viel besser als bei gescannten Dokumenten.

Einige Dokumente können mit dem Adobe Reader vor dem Konvertieren in Text geschützt werden. Zum Beispiel können Buchstaben in mehreren überlappenden Formen so gezeichnet werden, dass sie optisch immer noch gleich aussehen, während die Texterkennungssoftware keinen Text erkennt. Ihr Dokument ist ein Beispiel für einen solchen Schutz.

Eine Möglichkeit wäre, das Dokument in ein Bild zu drucken und es von einer Texterkennungssoftware erkennen zu lassen. Eine höhere Auflösung des Bildes verbessert die Qualität. Diese Methode ist jedoch nicht wirklich praktisch.


2
PDF-Dokumente enthalten eigentlich keine Buchstaben. Dies gilt nicht für die meisten nicht gescannten Dokumente. siehe en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan

Vielen Dank. Interessante Information. Ich habe immer gedacht, dass es keine Informationen zu Text in PDF gibt. Trotzdem scheint das von Alexander zur Verfügung gestellte Dokument keinen eingebetteten Text zu haben. Es ist auch möglich, dass dort verwendete Schriftarten eine seltsame Kodierung von Zeichen aufweisen, dh sie entsprechen nicht der typischen ASCII-Kodierung.
Sergiy Belozorov

2
Wie hätte ich den Text aus dem PDF kopieren können, wenn es nur Formen wären? Sie haben teilweise Recht - es wird nicht im PDF gerastert (es sei denn, es stammt aus einer gescannten Quelle), aber Textdaten sind enthalten. Die Schriftarten sind jedoch (normalerweise) auch eingebettet, so dass der eingeschlossene Text vektorgerendert werden kann.
Alex
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.