Gibt es eine Art PDF zu Text-Konverter?


21

Ich benötige PDF-Dateien für den Text, damit ich sie von der Kommandozeile aus in großen Mengen durchsuchen kann. Gibt es einen Konverter für Ubuntu, OBSD oder eine ähnliche Distribution?

Vielleicht verwandte Post, OCR mit Ubuntu hier .



Wenn es sich um eine "echte" PDF-Datei handelt (aus Text usw.), ist pdftotext die beste Wahl. Wenn es ein Bild ist, ist Ihre beste Wette etwas OCR-Material.
Vonbrand

1
Ich benutze immer pdftotext= pdfcat.
Isomorphismen

Antworten:


22

Sie haben viele Möglichkeiten!

pdftotextvon poppler wurde schon erwähnt.

Es gibt ein Haskell-Programm namens,pdf2line das gut funktioniert.

Kaliber ‚s ebook-convertKommandozeilenprogramm (oder Kaliber selbst) ist eine weitere Option; Es kann PDF in reinen Text oder ein anderes E-Book-Format (RTF, ePub) konvertieren. Meiner Meinung nach liefert es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.

ebook-convert file.pdf file.txt

AbiWord kann zwischen allen Formaten konvertieren, die es von der Befehlszeile kennt, und verfügt zumindest optional über ein PDF-Import-Plugin:

abiword --to=txt file.pdf

Eine weitere Option ist podofotextextractdie Podofo PDF-Toolbibliothek. Das habe ich nicht wirklich versucht.

Wenn Sie die beiden Ghostscript-Werkzeuge pdf2psund kombinieren ps2ascii, haben Sie noch eine weitere Option.

Eigentlich kann ich mir noch ein paar Methoden überlegen, aber ich lasse es vorerst dabei. ;)


calibre's ebook-convert ... hast du gesehen, was es mit Ligaturen macht? bleargh. Sagen wir es so: Es ist kein sehr effektives Programm. pdftotext ist viel treuer. Ich habe noch nie Fehler in der Ausgabe entdeckt.
ixtmixilix

1
Sie können weniger zum Anzeigen von PDF-Dateien als Text verwenden. Es ruft einen Präprozessor (lesspipe) zum Aufrufen von pdftotext oder ähnlichen Tools auf.
Daniel Näslund

pdftotextliefert genauere Ergebnisse als ebook-convertund ist sehr schnell. ebook-convertist träge.
Amit Patel

pdftotextmit -layoutOption rockt! calibreerfordert mehr als 600mb zu installieren! Das ist verrückt)
Stalinko

9

Sie können PDFs mit pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage) in Text auf der Kommandozeile konvertieren .

Sie können Recoll (Ubuntu: recoll ; OpenBSD: kein Port, aber einen für FreeBSD ) verwenden, um in verschiedenen formatierten Textdokumenttypen zu suchen, einschließlich PDF. Es gibt eine grafische Benutzeroberfläche, die automatisch einen Index erstellt. Es wird pdftotextzum Konvertieren von PDF in Text verwendet.

Acrobat Reader (mindestens Version 9 unter Linux) verfügt über eine eingeschränkte Suchfunktion für mehrere Dateien (Sie können alle Dateien in einem Verzeichnis durchsuchen).



-1

gPDFText konvertiert E-Book-PDF-Inhalte in ASCII-Text, der für Absätze mit langen Zeilen neu formatiert wurde. Es funktioniert für mich und verfügt über eine grafische Oberfläche.


3
Hallo und willkommen auf der Seite. Wir möchten, dass die Antworten hier etwas umfassender sind. Sie können beispielsweise hinzufügen, woher Sie es beziehen gPDFTextkönnen, wie es installiert werden kann und wie es zur Beantwortung der Frage des OP verwendet wird.
Terdon
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.