Ich suche eine PDF-Bibliothek, mit der ich den Text aus einem PDF-Dokument extrahieren kann. Ich habe mir PyPDF angesehen, und dies kann den Text sehr gut aus einem PDF-Dokument extrahieren. Das Problem dabei ist, dass bei Tabellen im Dokument der Text in den Tabellen in Übereinstimmung mit dem Rest des Dokumenttextes extrahiert wird. Dies kann problematisch sein, da dadurch Textabschnitte erzeugt werden, die nicht nützlich sind und verstümmelt aussehen (z. B. viele zusammengepresste Zahlen).
Ich möchte den Text aus einem PDF-Dokument extrahieren, ohne Tabellen und spezielle Formatierungen. Gibt es da draußen eine Bibliothek, die das macht?