Ich bin ein Absolvent der reinen Mathematik, der nur wenige grundlegende Programmierkurse belegt hat. Ich mache ein Praktikum und habe ein internes Datenanalyseprojekt. Ich muss die internen PDFs der letzten Jahre analysieren. Die PDFs sind "gesichert". Mit anderen Worten, sie sind verschlüsselt. Wir haben keine PDF-Passwörter, noch mehr, wir sind nicht sicher, ob Passwörter existieren. Wir haben jedoch alle diese Dokumente und können sie manuell lesen. Wir können sie auch drucken. Das Ziel ist es, sie mit Python zu lesen, da wir in dieser Sprache eine Idee haben.
Zuerst habe ich versucht, die PDFs mit einigen Python-Bibliotheken zu lesen. Die gefundenen Python-Bibliotheken lesen jedoch keine verschlüsselten PDFs. Zu diesem Zeitpunkt konnte ich die Informationen auch nicht mit Adobe Reader exportieren.
Zweitens habe ich beschlossen, die PDFs zu entschlüsseln. Ich war erfolgreich mit der Python-Bibliothek pykepdf. Pykepdf funktioniert sehr gut! Die entschlüsselten PDFs können jedoch nicht so gut mit den Python-Bibliotheken des vorherigen Punkts ( PyPDF2 und Tabula ) gelesen werden . Zu diesem Zeitpunkt haben wir einige Verbesserungen vorgenommen, da ich mit Adobe Reader die Informationen aus den entschlüsselten PDF-Dateien exportieren kann. Ziel ist es jedoch, alles mit Python zu erledigen.
Der Code, den ich zeige, funktioniert perfekt mit unverschlüsselten PDFs, aber nicht mit verschlüsselten PDFs. Es funktioniert nicht mit den entschlüsselten PDFs, die auch mit pykepdf erstellt wurden.
Ich habe den Code nicht geschrieben. Ich fand es in der Dokumentation der Python-Bibliotheken Pykepdf und Tabula . Die PyPDF2-Lösung wurde von Al Sweigart in seinem Buch " Automate the Boring Stuff with Python " geschrieben, das ich sehr empfehlen kann. Ich habe auch überprüft, ob der Code mit den zuvor erläuterten Einschränkungen einwandfrei funktioniert.
Erste Frage, warum ich die entschlüsselten Dateien nicht lesen kann, wenn die Programme mit Dateien arbeiten, die noch nie verschlüsselt wurden?
Zweite Frage: Können wir mit Python die entschlüsselten Dateien irgendwie lesen? Welche Bibliothek kann das oder ist es unmöglich? Sind alle entschlüsselten PDFs extrahierbar?
Vielen Dank für Ihre Zeit und Hilfe !!!
Ich habe diese Ergebnisse mit Python 3.7, Windows 10, Jupiter Notebooks und Anaconda 2019.07 gefunden.
Python
import pikepdf
with pikepdf.open("encrypted.pdf") as pdf:
num_pages = len(pdf.pages)
del pdf.pages[-1]
pdf.save("decrypted.pdf")
import tabula
tabula.read_pdf("decrypted.pdf", stream=True)
import PyPDF2
pdfFileObj=open("decrypted.pdf", "rb")
pdfReader=PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj=pdfReader.getPage(0)
pageObj.extractText()
Mit Tabula erhalte ich die Meldung "Die Ausgabedatei ist leer".
Mit PyPDF2 bekomme ich nur '/ n'
UPDATE 03.10.2019 Pdfminer.six (Version November 2018)
Mit der von DuckPuncher veröffentlichten Lösung habe ich bessere Ergebnisse erzielt . Für die entschlüsselte Datei habe ich die Etiketten bekommen, aber nicht die Daten. Gleiches passiert mit der verschlüsselten Datei. Denn die noch nie verschlüsselte Datei funktioniert einwandfrei. Da ich die Daten und Beschriftungen von verschlüsselten oder entschlüsselten Dateien benötige, funktioniert dieser Code bei mir nicht. Für diese Analyse habe ich pdfminer.six verwendet , eine Python-Bibliothek, die im November 2018 veröffentlicht wurde. Pdfminer.six enthält eine Bibliothek pycryptodome. Laut ihrer Dokumentation "ist PyCryptodome ein in sich geschlossenes Python-Paket von kryptografischen Grundelementen auf niedriger Ebene."
Der Code befindet sich in der Stapelaustauschfrage : Extrahieren von Text aus einer PDF-Datei mit PDFMiner in Python?
Ich würde mich freuen, wenn Sie mein Experiment wiederholen möchten. Hier ist die Beschreibung:
1) Führen Sie die in dieser Frage genannten Codes mit allen PDF-Dateien aus, die noch nie verschlüsselt wurden.
2) Machen Sie dasselbe mit einem PDF "Sicher" (dies ist ein Begriff, den Adobe verwendet). Ich nenne es das verschlüsselte PDF. Verwenden Sie ein allgemeines Formular, das Sie mit Google finden können. Nachdem Sie es heruntergeladen haben, müssen Sie die Felder ausfüllen. Andernfalls würden Sie nach Beschriftungen suchen, aber nicht nach Feldern. Die Daten befinden sich in den Feldern.
3) Entschlüsseln Sie das verschlüsselte PDF mit Pykepdf. Dies ist das entschlüsselte PDF.
4) Führen Sie die Codes erneut mit dem entschlüsselten PDF aus.
UPDATE 04.10.2019 Camelot (Version Juli 2019)
Ich habe die Python-Bibliothek Camelot gefunden. Achten Sie darauf, dass Sie camelot-py 0.7.3 benötigen.
Es ist sehr leistungsfähig und funktioniert mit Python 3.7. Es ist auch sehr einfach zu bedienen. Zunächst müssen Sie auch Ghostscript installieren . Andernfalls funktioniert es nicht. Sie müssen auch Pandas installieren . Verwenden Sie nicht pip install camelot-py . Verwenden Sie stattdessen pip install camelot-py [cv]
Der Autor des Programms ist Vinayak Mehta. Frank Du teilt diesen Code in einem YouTube-Video "Extrahieren von Tabellendaten aus PDF mit Camelot mit Python".
Ich habe den Code überprüft und er funktioniert mit unverschlüsselten Dateien. Es funktioniert jedoch nicht mit verschlüsselten und entschlüsselten Dateien, und das ist mein Ziel .
Camelot ist darauf ausgerichtet, Tabellen aus PDFs abzurufen.
Hier ist der Code:
Python
import camelot
import pandas
name_table = camelot.read_pdf("uncrypted.pdf")
type(name_table)
#This is a Pandas dataframe
name_table[0]
first_table = name_table[0]
#Translate camelot table object to a pandas dataframe
first_table.df
first_table.to_excel("unencrypted.xlsx")
#This creates an excel file.
#Same can be done with csv, json, html, or sqlite.
#To get all the tables of the pdf you need to use this code.
for table in name_table:
print(table.df)
UPDATE 07.10.2019 Ich habe einen Trick gefunden. Wenn ich das gesicherte PDF mit Adobe Reader öffne und es mit Microsoft als PDF drucke und als PDF speichere, kann ich die Daten mit dieser Kopie extrahieren. Ich kann die PDF-Datei auch in JSON, Excel, SQLite, CSV, HTML und andere Formate konvertieren. Dies ist eine mögliche Lösung für meine Frage. Ich bin jedoch immer noch auf der Suche nach einer Option, um dies ohne diesen Trick zu tun, da das Ziel darin besteht, dies zu 100% mit Python zu tun. Ich mache mir auch Sorgen, dass der Trick möglicherweise nicht funktioniert, wenn eine bessere Verschlüsselungsmethode verwendet wird. Manchmal müssen Sie Adobe Reader mehrmals verwenden, um eine extrahierbare Kopie zu erhalten.
UPDATE 08.10.2019. Dritte Frage. Ich habe jetzt eine dritte Frage. Sind alle gesicherten / verschlüsselten PDFs passwortgeschützt? Warum funktioniert pikepdf nicht? Ich vermute, dass die aktuelle Version von pikepdf einige Verschlüsselungen aufheben kann, aber nicht alle. @constt erwähnte, dass PyPDF2 irgendeine Art von Schutz aufheben kann. Ich antwortete ihm jedoch, dass ich einen Artikel gefunden habe, in dem PyPDF2 Verschlüsselungen aufheben kann, die mit Adobe Acrobat Pro 6.0 erstellt wurden, aber keine mit früheren Versionen.
qpdf
Ihre Dateien zu entschlüsseln? In dem Fall, dass es den Trick macht, können Sie es von Ihrem Skript aus mit einem subprocess
Modul aufrufen , um Dateien zu entschlüsseln, bevor Sie sie analysieren.
PyPDF2
, alles funktioniert einwandfrei. Ich habepdftk
neben Online-Diensten auch Dateien verschlüsselt. Können Sie Links zu "problematischen" PDF-Dateien veröffentlichen?