Konvertieren von DJVU in PDF


39

Ich möchte ein DJVU Dokument in ein PDF - Dokument konvertieren, zu trennen und die Erhaltung der Textebene und die Bilder , während auch die Struktur zu halten von der DJVU. Wie kann ich das in Ubuntu machen?

(Ich werde dann Calibre verwenden , um nach ePub / Mobi zu konvertieren. Wenn es also ein Calibre-Plug-In für diesen gesamten Prozess geben würde, wäre das perfekt für mich!)

Hinweis 1: Drucken aus Evince, Exportieren aus DJview oder mit dem Paket ddjvu sind keine geeigneten Lösungen, da die Textebene verworfen und nur Bilder gespeichert werden .

Hinweis 2: Die Verwendung von DJVULibre scheint nur die Textebene zu extrahieren, und Bilder werden nicht extrahiert . Wenn Sie den Text "manuell" kopieren, gehen sowohl die Dokumentstruktur als auch die Bilder verloren.

Antworten:


37

Methode 1

Einfach DJView verwenden und als PDF exportieren

  1. Gehe zu Synaptic Package Manager
  2. Installieren Sie DJview4
  3. Führen Sie DJview aus (Anwendungen - Grafik - DJView4)
  4. Öffnen Sie Ihr .djvu-Dokument
  5. : Menü - Exportieren als: PDF

Methode 2

Öffnen Sie die djvu-Datei in evince
Wählen Sie print ----> print to file,
ändern Sie die .ps in .pdf und klicken Sie auf print

Methode 3

  1. Gehe zu Synaptic Package Manager
  2. Installieren

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Gehe zum Terminal und schreibe

     sudo apt-get install libtiff-tools
    
  4. Gehe in das Verzeichnis, in dem sich die djvu-Datei befindet. Klicken Sie mit der rechten Maustaste. Gehen Sie zur Option „Open In Terminal“. Klick es an. Ein Terminal wird geöffnet.

  5. In diesem Terminal schreiben

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Methode 4

Es gibt auch einen Online-Konverter DjVu in PDF-Konverter


@Ashu Sind Sie sicher, dass dies die Bilder abruft?
Hayd

Ja, Methode 1 und 2 haben bei mir funktioniert. habe nicht für 3 und .4
Ashu

@Ashu werden die Bilder extrahiert oder einfach die gesamte Seite kopiert? (
Ergibt

Hast du irgendeine Methode ausprobiert? Probieren Sie es aus und sehen Sie, ob es funktioniert
Ashu

2
Es funktioniert nicht (Bilder oder Text abrufen).
Hayd

17

Hier ist eine Möglichkeit, die einige weniger gebräuchliche Werkzeuge erfordern würde:

  1. ocrodjvu
  2. pdfbeads , das hat seine eigenen Anforderungen, die von Google gefunden werden können

Wir können den djvu2hocrBefehl (from ocrodjvupackage) verwenden, um verborgene Textebenen aus der DjVu-Datei zu extrahieren (es wird keine OCR oder ähnliches ausgeführt, es werden nur Textebenen mit Geometrie extrahiert), dh:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed Intervention korrigiert Klassennamen in Ausgabe-HOCR (die nur einfache HTML-Datei ist)

Nun extrahieren wir die DjVu-Seite in das TIFF-Format mit:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

so dass wir mit dieser Datei in unserem Arbeitsordner enden:

sample.djvu
pg10.html
pg10.tif

Hier pdfbeadskommt das Spiel ins Spiel und wir führen einfach aus:

pdfbeads -o pg10.pdf

Dann kümmert sich dieses raffinierte Programm um alles, was sich in diesem Ordner befindet (HTML- und TIFF-Dateien mit demselben Basisnamen) und erzeugt eine Ausgabe-PDF-Datei mit einigen Nebenprodukten:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

Das ist identisch mit der Eingabe-DjVu-Datei und enthält eine Textebene:

Bildbeschreibung hier eingeben

Zusammenfassung der Kommentare:

In den folgenden ausführlichen Kommentaren wird erläutert, wie kleinere Bilder von der DjVu-Dokumentseite als separate Objekte dargestellt werden. Dies ist nicht einfach möglich, da die DjVu-Dokumentseite selbst nur ein einzelnes Bild mit optionaler Textebene ist und keine "Informationen" zu kleineren Bildern als separate Objekte enthält. Wenn ein DjVu-Dokument Farbbilder enthält, werden diese normalerweise auf der Hintergrundebene platziert. In diesem Fall können Benutzer Tools wie ddjvu(Nur Hintergrundebene extrahieren) und imagemagick(Automatisch zuschneiden) verwenden, um nur Bilder statt der gesamten Zeichenfläche auszugeben. Sie können die PDF-Ausgabe jedoch nicht automatisieren

Ein anderer vernünftiger, aber langsamerer Ansatz ist die Verwendung regulärer OCR-GUI-Tools. gscan2pdf(> 1.0) wird als möglicher Kandidat für einen Linux-PC vorgeschlagen


Bin ich zu Recht der Meinung, dass hierdurch nicht die einzelnen Bilddaten extrahiert werden, sondern nur das Bild der gesamten Seite?
Hayd

Was meinen Sie mit "individuellen Bilddaten", wenn Sie sich auf die DjVu-Dateistruktur beziehen?
Zetah

ob es die Bilder aus dem Dokument als kleinere Bilder beschneiden kann, die oben auf der PDF-Datei platziert sind (z. B. um sie in HTML zu exportieren)
hayd

Es gibt keine solche Definition in der DjVu-Dateistruktur. Das obige Beispielbild im ursprünglichen DjVu-Dokument wird zusammen mit dem Zeichenbild auf der Vordergrundebene / Maske "platziert", und es gibt eine separate Textebene, die wie erläutert extrahiert wurde. Wenn ein DjVu-Dokument Farbbilder enthält, werden diese auf der gesamten Seite auf der Hintergrundebene platziert (in der üblichen zusammengesetzten DjVu-Datei). Es ist zwar verständlich, dass Sie davon ausgehen können, dass Bilder in der DjVu-Dokumentseite separate Objekte sind, dies ist jedoch nicht der Fall. Betrachten Sie die DjVU-Dokumentseite als Einzelbild mit optionaler Textebene.
Zetah

1
@zetah - Die zusätzlichen Informationen, die Sie in den Kommentaren angegeben haben, sollten wirklich zur Antwort hinzugefügt werden, da sie wertvolle Informationen zur Bildplatzierung in der Struktur und zu den erwarteten Extraktionsergebnissen liefern.
fossfreedom

4

Es gibt djvu2pdf, aber es basiert auf Ghostscript, so dass es möglicherweise eine andere Druckoption ist . Ich schlage immer noch vor, dass Sie einen Blick darauf werfen, nur für den Fall, dass es schlauer ist, als ich es zu würdigen.

Es ist nicht in den Repos, aber Sie können eine Deb von der Herstellerseite herunterladen: http://0x2a.at/s/projects/djvu2pdf

** Pflichtvermerk zum Herunterladen / Installieren von Dingen von außerhalb der Repos hier einfügen **


1
Ich fürchte, djvu2pdf verwendet ddjvu zum Exportieren in PDF, wodurch Bilder ohne Text exportiert werden .
Hayd

4

Mit DJVULibre kann man die Textebene über den terminalBefehl extrahieren :

djvutxt myfile.djvu > myfile-ocr.txt oder djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(beide machen dasselbe und wurden hier gefunden )

Das Formatieren erfordert einige Anstrengungen (da viele Symbole nicht richtig konvertiert werden) und Bilder nicht wiederhergestellt werden .


Dies eignet sich zum Konvertieren von bildlosen Büchern im DJVU-Format, nicht jedoch für Dokumente mit Bildern. Dies ist die derzeitige Lösung für mich und die einzige, die den Text extrahiert. Eine Möglichkeit, Formatierungen und Bilder beizubehalten, wäre sehr zu bevorzugen!
Hayd

0

http://www.djvu-pdf.com/ - Über diese Website können Sie djvu in pdf konvertieren.


Ich habe diese Website bereits veröffentlicht bro
Ashu

Dies scheint eine gefälschte Seite zu sein. Nach der Konvertierung wird folgende Meldung angezeigt: Diese Datei kann möglicherweise nicht heruntergeladen werden.
Corev

0

Der einfachste Weg: Verwenden Sie gscan2pdf, um das djvu zu importieren, dann OCR mit tesseract und speichern Sie es schließlich als PDF. Der OCR-Text im PDF-Dokument weicht möglicherweise geringfügig vom ursprünglichen DJVU ab, und die Konvertierung kann eine Weile dauern. Diese Methode ist jedoch ein Kinderspiel und funktioniert.


1
Hallo, um dies nützlicher zu machen, könnten Sie etwas detaillierter beschreiben, wo Sie gscan2pdf und tesseract erhalten und verwenden können.
NGRhodes

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.