Automatische PDF-Umbenennung basierend auf dem Titel

Ich habe Tausende von wissenschaftlichen PDFs, die ich umbenennen muss, viele haben keine Metadaten. Ich möchte in der Lage sein, eine Automatoraktion zu erstellen, die einen Ordner öffnen und dann jedes PDF öffnen kann, den Titel kopieren und das Dokument umbenennen und in einem neuen Ordner speichern kann. Ich habe stundenlang versucht, dies herauszufinden, daher würde ich mich über jede Hilfe sehr freuen. Ich habe Apple G5 2.26Gz Quad mit os10.6 Danke!

— Ron
quelle

Antworten:

Es gibt Mendeley , ein Online-Recherchetool, mit dem Sie wissenschaftliche Publikationen verwalten können.

Es verfügt über ein Mendeley Desktop-Tool, mit dem Sie PDFs ziehen und ablegen können. Mendeley analysiert automatisch die Autoren und Titel der PDFs.

Bildbeschreibung hier eingeben

Anschließend können Sie die Datei umbenennen, indem Sie mit der rechten Maustaste auf "Dokumentdateien umbenennen ..." klicken. Sie können auch mehrere Dateien gleichzeitig umbenennen.

Bildbeschreibung hier eingeben

Es ist für Windows und OS X verfügbar.

— slhck
quelle

Ich habe Mendely +1 gegeben, weil es ziemlich gut funktioniert, aber manchmal kann es beim Extrahieren von Dokumententiteln schuppig sein.

— Ian Turner

@ Ian Leider ja. Es wird nie eine perfekte Lösung geben. Es ist seltsam, dass Titel nicht automatisch großgeschrieben werden, wenn sie alle in der Original-PDF-Datei großgeschrieben sind.

— Slhck

Es ist so genial! hat mir so viel Zeit gespart! Ich danke dir sehr!

— Regentropfen

Zotero macht das besser und ohne den Unternehmensverband leidet Mendeley jetzt darunter.

— Jack Wasey

@ JackWasey Du hast recht. Angesichts der Tatsache, dass mein Beitrag aus dem Jahr 2011 stammt, bin ich überrascht, dass er jetzt im Besitz von Elsevier ist und wie wenig er sich im Laufe der Zeit verbessert hat.

— Slhck

Wenn ich Sie richtig verstehe , möchten Sie den Papiertitel extrahieren, der auf der ersten Seite des PDF-Dokuments vorhanden ist (in der Regel in größerem Druck als die Zusammenfassung und der folgende Text) und ihn als Dateinamen verwenden.

Ich fürchte, Sie werden wahrscheinlich keine Komplettlösung finden , da am Anfang des PDF -Dokuments möglicherweise unterschiedliche Mengen an Nicht-Titel-Text vorhanden sind, sodass es schwierig ist, den eigentlichen Titel für PDF-Dokumente zu extrahieren, die aus unterschiedlichen Quellen stammen Zeitschriften.

Ich würde wahrscheinlich eine Lösung finden, die für einen bestimmten Prozentsatz Ihrer PDFs funktioniert

Verwenden Sie Ghostscript's pdf2ps und ps2ascii , um einfachen Text aus der PDF- Datei zu extrahieren
Analysieren Sie diesen Klartext für einen Zeitschriftentitel, der sich ungefähr im ersten Kilobyte befindet
Versuchen Sie, je nach Zeitschrift eine Heuristik zu erstellen, die den Titel des Papiers aus dem Klartext extrahiert.

Wenn Sie ein Tool finden, mit dem Sie sowohl die relative Textgröße als auch einfachen Text aus einem PDF-Dokument extrahieren können, ist dies wahrscheinlich auch eine große Hilfe.

Viel Glück - es wäre interessant zu sehen, ob Sie einen Weg finden, dies zu automatisieren! Das Wichtigste, was ich mache, wenn ich Artikel selbst herunterlade, ist, sie systematisch zu benennen, aber es wäre sicher großartig, wenn ich danach etwas tun würde ...

— Jonas Heidelberg
quelle

Zum Glück gibt es eine Lösung, siehe meine Antwort :)

— slhck

@slhck - cool, wusste nicht, dass Mendeley das kann :-). Verarbeitet es also alle PDFs im Stapel, wenn Sie sie gleichzeitig ziehen und ablegen?

— Jonas Heidelberg

Ja, sogar für Tausende von Dateien!

— Slhck

Wenn Sie keine externe Software verwenden möchten und Lust haben, ein eigenes Skript zu schreiben, öffnen Sie Ihre PDF-Dateien als einfachen Text mit einem Texteditor, und suchen Sie nach Mustern. Suchen Sie entweder nach dem Schlüsselwort 'title' oder suchen Sie nach Wörtern im Titel und sehen Sie, wo sie erscheinen.

Um Ihnen einige Beispiele zu geben (wissenschaftliche Zeitschriften in der Chemie):

ACS (American Chemical Society): Der Titel wird in Klammern nach dem zweiten Vorkommen des Schlüsselworts "/ title" angezeigt.

Wiley Publishing: Der Titel wird in Klammern nach dem ersten (und einzigen) Vorkommen des Schlüsselworts "/ Title" angezeigt.

Rsc-Veröffentlichung: hat den Titel nicht im Klartext.

Springer: Es scheint von der Zeitschrift abzuhängen

Da die meisten Zeitschriften, die ich lese, von wiley oder acs sind, würde die Situation für mich ziemlich gut aussehen.

Dies könnte ein Plan sein: 1. Studieren Sie PDFs der Verlage, aus denen Sie am häufigsten Zeitschriften lesen. 2. Wählen Sie diejenigen aus, die den Titel im Klartext haben. Dies sollte kein Problem sein, da alle ihre Namen in den letzten KB des PDF-Dokuments enthalten. 3. Verwalten Sie diese mit einem Skript

Abhängig davon, wie viele der von Ihnen gelesenen Zeitschriften das Title-Tag für den Titel des Artikels verwenden, kann dies nützlich sein oder nicht.

Ein allgemeinerer Ansatz wäre: pdf-> text-> parse text Sie können hier beginnen: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

— Luca Bardini
quelle