Wie erhalte ich CJK-Unicode-Zeichen aus einer PDF-Datei, in der zusätzliche Zeichen für den privaten Gebrauch verwendet werden?


1

Ich habe mehrere PDF-Dokumente (wie dieses ), die scheinbar mit chinesischen Standardideogrammen geschrieben wurden, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den zusätzlichen privaten Unicode-Verwendungsbereichen codiert ist.

Gibt es eine zuverlässige Möglichkeit, die Zeichen für den privaten Gebrauch wieder den entsprechenden CJK-Zeichen zuzuordnen?

Antworten:


0

Der allgemeine Fluss ist wahrscheinlich

  • Schrift aus PDF extrahieren
  • Versuchen Sie, die Schriftart mit einer anderen bekannten Codierung zu vergleichen und festzustellen, ob es sich um eine solche handelt
  • Oder alternativ könnte es etwas sein, das tatsächlich privat genutzt wird
  • Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, wenn bekannt ist, um welche Codierung es sich handelt. Andernfalls arbeiten Sie mit der extrahierten Schriftart aus PDF
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.