Wie kopiere ich Text aus einer PDF-Datei, ohne die Formatierung zu verlieren?

41

Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Arten beschädigt. Formatierungen in Fett- und Kursivschrift gehen verloren. weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in harte Zeilenumbrüche umgewandelt; Bindestriche, um ein Wort über zwei Zeilen zu trennen, bleiben erhalten, auch wenn dies nicht der Fall sein sollte. und einfache und doppelte Anführungszeichen werden ersetzt durch? Zeichen.

Idealerweise möchte ich in der Lage sein, Text aus einer PDF-Datei zu kopieren und die Formatierung in HTML-Codes, "intelligente Anführungszeichen" in "und" und Zeilenumbrüche zu konvertieren. Gibt es eine Möglichkeit, dies zu tun?

pdf

— Colen
quelle

2

Word 2013 kann PDFs öffnen. Nicht perfekt. Aber machbar

— Pratnala

Möglicherweise

— Steven R. Loomis

54

Zunächst muss man verstehen, was ein PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren. Sie sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Satzzeichen usw.) oder Bildern enthält. In den meisten Fällen werden in einem PDF-Dokument nicht einmal Informationen darüber gespeichert, wo ein Wort endet und wo ein anderes beginnt, geschweige denn, dass die Absätze durch weiche oder harte Brüche unterbrochen werden.

(In einigen neueren PDF-Dateien sind Informationen zu diesem Thema gespeichert, aber das ist eine neue Technologie, und Sie haben das Glück, solche PDF-Dateien zu finden. Selbst wenn Sie dies getan haben, weiß Ihr PDF-Viewer möglicherweise nichts davon.)

Wie auch immer, es liegt an Ihrer Software, eine Art "künstliche Intelligenz" zu implementieren, um lediglich aus den Positionen der einzelnen Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Eine andere Software kann dies besser als andere und hängt auch davon ab, wie das PDF erstellt wurde. In jedem Fall sollten Sie niemals perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Es ist weitaus besser zu versuchen, das zu erreichen, wenn Sie können.

Die Standardlösung für Ihre Art von Problem besteht darin, Adobe Acrobat Professional (das teure und nicht das kostenlose Lesegerät) zum Konvertieren der PDF-Datei in HTML zu verwenden. Auch das wird nicht zu perfekten Ergebnissen führen.

Es gibt eine kostenlose Software, die zum Extrahieren von Text aus PDFs verwendet werden kann, wobei einige Formatierungen intakt sind. Erwarten Sie jedoch auch hier keine perfekten Ergebnisse. Siehe z. B. Kaliber (das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder das AbiWord-Textverarbeitungsprogramm (mit allen aktivierten Import- / Export-Plugins). Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber bitte erwarten Sie bei keinem dieser Ergebnisse Perfektion. Du gehst hier gegen den Strich. PDF ist nicht als bearbeitbares Eingabeformat gedacht.

— schäbig
quelle

2

5 Jahre später ein Feedback: Keine große Verbesserung: Ich musste es in HTML konvertieren (mit Acrobat X) und dann jede Zeile in eine MSword-Tabelle einfügen. (Speichern für Word oder Excel oder TXT hat einfach alles durcheinander gebracht, Kopieren von Chrome hat auch überhaupt nicht funktioniert). Ich warte immer noch auf eine (sehr) clevere Software.

— JinSnow

Rechtsklick auf die Tabelle Auswahl „Kopie mit der Formatierung“ Arbeit auch mit den genannten Grenzen oben

— JinSnow

1

Da dies die akzeptierte Antwort ist, schlage ich vor, dass Sie auch die (neuere) Option erwähnen, die Pratnala in seinem Kommentar geschrieben hat - öffnen Sie das PDF direkt aus Word 2013. Auf einigen PDFs habe ich versucht, bessere Ergebnisse zu erzielen als bei allen oben genannten Programmen.

— BornToCode

8

Eine andere Möglichkeit ist, Foxit (es ist gut), den kostenlosen PDF-Viewer, herunterzuladen und zu verwenden. Dann können Sie 'Speichern unter' und .txt wählen, um es in eine Textdatei zu konvertieren. Dadurch bleibt die gesamte Formatierung erhalten. Keine Ahnung, ob Sie dasselbe in Adobe tun können, da ich es vor einiger Zeit nicht mehr verwendet habe, als ich zu Foxit konvertiert habe.

— chris
quelle

"Save as ... Text" funktionierte für mich mit mehreren kostenlosen PDF-Viewern.

— Jeff

Ich benutze Foxit und habe es nur ausprobiert. Ich würde nicht sagen, dass die Formatierung erhalten bleibt. Und alles, was ich wollte, waren anständige Zeilenenden und jeder Absatz als Absatz.

— pgr

Mit txt verlieren Sie alle Formatierungen: Schriftarten, Fettdruck, Kursivschrift, Farben und natürlich erweiterte Optionen

— skan

Foxit Reader hat für mich großartig funktioniert

— Michael Tranchida

5

Es gibt ein sehr gutes Online-Tool namens Sej-da . Es befasst sich mit Advanced PDF Manipulation. Es ist keine Software zum Herunterladen vorhanden. Da es sich um ein neues Online-Tool handelt, befindet es sich derzeit noch in der Beta. Sie können damit Text aus einem PDF extrahieren und eine Vielzahl anderer PDF-Funktionen bereitstellen

http://www.sejda.com/

Eine kurze Videoüberprüfung der Sejda-Funktionen wurde am 14. November 2012 von Revision 3 durchgeführt und ist hier zu finden:

http://revision3.com/tzdaily/sejda-online-pdf

— Simon
quelle

1

Man könnte das Kommandozeilen-Tool immer noch herunterladen: sejda.org/download (Ich glaube nicht, dass es erlaubt, Text mit Formatierung zu extrahieren ?)

— Arjan

Ich habe Sejda bereits über Arjan

— Simon

1

Huh? Ich meinte nur: Sie sagen, es ist ein Online-Tool, aber man kann das gleiche auch herunterladen. Außerdem, wenn ich weiter darüber nachdenke: Ich glaube nicht, dass die Formatierung erhalten bleibt, wie sie gewünscht wurde?

— Arjan,

Mir ist bekannt, dass das Format beibehalten werden muss, aber wenn Sie es nicht versuchen, werden Sie es nie erfahren.

— Simon

Da es sich um ein kostenloses Tool mit einer Fülle von Funktionen handelt und es noch nicht einmal aus der Beta ist, gibt es nichts zu verlieren, aber versuchen Sie es. Mit der Zeit wird der Funktionsumfang wahrscheinlich erweitert, kann mich aber vorerst nicht wirklich beschweren.

— Simon

5

Öffnen Sie Ihre PDF-Datei mit einem Browser (Google Chrome und Firefox sind getestet) und kopieren Sie Ihren Text dorthin.

— harsini
quelle

Leider hat das in Firefox nicht funktioniert.

— Reb

schließen. FF hat mindestens die Schriftgröße beibehalten. Chrome ist kläglich gescheitert, nicht einmal Line-Feeds.

— nd34567s32e

Ab Oktober 2019 werden beim Öffnen eines PDF-Dokuments in Chrome und beim Kopieren / Einfügen in einen Texteditor mindestens die Zeilenenden beibehalten (jedoch leider keine führenden Leerzeichen in den Zeilen).

— DocOc

4

Sie können hierfür Adobe Acrobat Pro verwenden.

Für Tabellen: In Acrobat 9/10 gab es eine Funktion zum Auswählen von Tabellen. In Acrobat X können Sie einfach auf Speichern unter> Tabellenkalkulation> Excel klicken. Es verknüpft sogar Seiten zu einer langen Tabelle. Geniales Feature.

Für Text: Eine ähnliche Funktion gibt es für den Export nach MS Word. Speichern unter> Word> Word Doc.

Quellen:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Ich habe es einfach gemacht und es hat wie ein Zauber funktioniert.

— user156787
quelle

0

Foxit wechselt zwischen der Anzeige der Originaldatei als normales PDF oder als Text durch Drücken von Strg + 6 (Mit ein wenig Fummeln an der Zoomstufe des Textmodus wird nicht viel zwischen Lesen und Kopieren hin und her gesprungen).

— Stoatly
quelle

0

Ich fand das sehr nützlich ( Zeilenumbrüche entfernen ):

Hier ist ein nützlicher Trick, um dies schnell zu beheben, ohne alle Zeilenumbrüche manuell entfernen zu müssen. Grundsätzlich werden alle unerwünschten Zeilenumbrüche automatisch durch ein einzelnes Leerzeichen ersetzt, sodass der gesamte Text in einem einzigen Absatz zusammengefasst wird:

1- Kopieren Sie den gewünschten Text aus der PDF-Datei.

2- Einfügen in ein neues Word-Dokument.

3- Klicken Sie auf "Bearbeiten" und dann auf "Ersetzen".

4- Stellen Sie sicher, dass Sie sich im Feld "Suchen nach" befinden

5- Klicken Sie auf "mehr" und dann auf "speziell"

6- Wählen Sie "Absatzmarke" (oben in der Liste)

7- Klicken Sie in das Feld „Ersetzen durch“

8- drücken Sie einmal die Leertaste

9- Klicken Sie auf "Alle ersetzen"

10- Klicken Sie auf "OK" und schließen Sie das Feld "Suchen & Ersetzen".

— Dachfenster
quelle

-1

Sie können vom Adobe Reader in MS Excel kopieren und die Tabelle wie gewünscht formatieren und dann aus Excel kopieren und einfügen. Diese Lösung funktioniert hervorragend. Sie müssen keine teure Adobe Professional-Kopie kaufen.

— Murali Sastry
quelle

Die Frage diskutiert Text. Glauben Sie, dass dies eine gute allgemeine Lösung für Text ist, einschließlich der Konvertierung von Formatierungen in HTML-Codes?

— Fixer1234

-1

Ich habe versucht, den Text und das Format eines PDFs zu speichern, das in einer Tabelle organisiert war. In Acrobat Professional wurde mir klar, dass es eine Option zum Speichern unter gibt, die das Speichern als Excel-Dokument ermöglicht. Dies funktionierte gut für meine Bedürfnisse. Mir ist auch aufgefallen, dass es auch eine Option zum Speichern als Word-Dokument gibt. Ich habe es aber nicht ausprobiert.

— Douglas Thompson
quelle

2

Dies dupliziert die Antwort von user156787.

— Fixer1234