Wenn Sie keine externe Software verwenden möchten und Lust haben, ein eigenes Skript zu schreiben, öffnen Sie Ihre PDF-Dateien als einfachen Text mit einem Texteditor, und suchen Sie nach Mustern. Suchen Sie entweder nach dem Schlüsselwort 'title' oder suchen Sie nach Wörtern im Titel und sehen Sie, wo sie erscheinen.
Um Ihnen einige Beispiele zu geben (wissenschaftliche Zeitschriften in der Chemie):
ACS (American Chemical Society): Der Titel wird in Klammern nach dem zweiten Vorkommen des Schlüsselworts "/ title" angezeigt.
Wiley Publishing: Der Titel wird in Klammern nach dem ersten (und einzigen) Vorkommen des Schlüsselworts "/ Title" angezeigt.
Rsc-Veröffentlichung: hat den Titel nicht im Klartext.
Springer: Es scheint von der Zeitschrift abzuhängen
Da die meisten Zeitschriften, die ich lese, von wiley oder acs sind, würde die Situation für mich ziemlich gut aussehen.
Dies könnte ein Plan sein: 1. Studieren Sie PDFs der Verlage, aus denen Sie am häufigsten Zeitschriften lesen. 2. Wählen Sie diejenigen aus, die den Titel im Klartext haben. Dies sollte kein Problem sein, da alle ihre Namen in den letzten KB des PDF-Dokuments enthalten. 3. Verwalten Sie diese mit einem Skript
Abhängig davon, wie viele der von Ihnen gelesenen Zeitschriften das Title-Tag für den Titel des Artikels verwenden, kann dies nützlich sein oder nicht.
Ein allgemeinerer Ansatz wäre: pdf-> text-> parse text Sie können hier beginnen:
https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text