Um Text aus einer PDF-Datei zu extrahieren, versuchen Sie dies unter Linux, BSD usw. oder verwenden Sie Cygwin unter Windows:
pdfinfo -layout some_pdf_file.pdf
Eine Nur-Text-Datei mit dem Namen some_pdf_file.txt
wird erstellt. Je einfacher das Layout der PDF-Datei ist, desto einfacher ist die Ausgabe der TXT-Datei.
Hexadezimalzeichen sind häufig in der TXT-Dateiausgabe vorhanden und sehen in Texteditoren seltsam aus. Diese hexadezimalen Zeichen stehen normalerweise für geschweifte einfache und doppelte Anführungszeichen, Aufzählungszeichen, Bindestriche usw. im PDF.
Führen Sie diesen grep-Befehl aus, um den Kontext anzuzeigen, in dem die hexadezimalen Zeichen angezeigt werden, und halten Sie die Original-PDF-Datei bereit, um festzustellen, welche Zeichen die Codes in der PDF-Datei darstellen:
grep -a --color=always "\\\\[0-9][0-9][0-9]" some_pdf_file.txt
Dadurch wird eine eindeutige Liste der verschiedenen Oktalcodes im Dokument bereitgestellt:
grep -ao "\\\\[0-9][0-9][0-9]" some_pdf_file.txt|sort|uniq
Um diese hexadezimalen Zeichen in ASCII-Entsprechungen umzuwandeln, kann eine Kombination aus grep, sed und bc verwendet werden. Ich werde die Prozedur veröffentlichen, um dies bald zu tun.