Ich exportiere MS Word- Inhalte in einfachen Text zur Verwendung mit Text- und Dateidienstprogrammen. Ich habe eine Einschränkung, bei der die Zeilennummerierungsfunktion in der MS-Software aktiviert wurde, und jeder Verweis auf Zeilennummern in der endgültigen Ausgabe muss mit dieser Nummerierung übereinstimmen. Geben Sie also "Nummerierungszeilen" ein:
( Poe, EA )
Offensichtlich unterbricht diese Art der Nummerierung bei Word keine Zeilen bei Zeilenumbrüchen , sondern "Zeilen" nach dem rechten Rand (oder so). Ein Skript wie docx2txt
, berücksichtigt dies anscheinend nicht standardmäßig und bricht Zeilen bei Zeilenumbruch. Wenn ich also grep -n
mit Nummerierung verwende, stimmen die Zeilen nicht mit der Funktion für Quellzeilennummern überein, wie oben dargestellt. Aus der Dokumentation geht nicht genau hervor, wie ich das Perl-Skript bearbeiten müsste, um die Dateien so zu konvertieren, wie ich es in diesem Fall benötige:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Ich habe versucht , ersetzt \n
für , \r\n
aber das scheint nicht für mich arbeiten. Daher habe ich die Dokumente mit den folgenden Einstellungen direkt aus Word exportiert (als Nur- Text speichern , v.2013,64pc):
- Unicode (UTF-8)
- Zeilenumbrüche + Endzeilen mit (CR / LF) einfügen
- Ersetzen von Zeichen zulassen
Und jetzt in der Tat , wenn ich verwende die .txt
Dateien gibt es eine perfekte Übereinstimmung zwischen Zeilennummern im Quell Nummerierung Features und der grep -n
Ausgang.
- Gibt es eine bestimmte Konfiguration / einen bestimmten Prozess, über den ich Bescheid wissen sollte,
docx2txt
oder ein ähnliches Befehlszeilenprogramm, mit dem ich meine DOCX- Dateien unter Beibehaltung von Zeilenumbrüchen in einfachen Text konvertieren konnte , ohne wie ich auf Word zurückgreifen zu müssen ? - Welche bewährten Methoden werden gegebenenfalls zum Exportieren von MS Word- Dokumenten (die möglicherweise Zeichen mit Akzent enthalten) in Klartext zur Verwendung mit Datei- / Textdienstprogrammen in Bezug auf Zeilenumbrüche und Formatierungen verwendet? und gibt es irgendwelche negativen Auswirkungen auf die Einstellungen, die ich für den Export ausgewählt habe, dh das Einfügen von CR / LF?
Stichprobe
Wie vorgeschlagen stelle ich ein Beispiel zur Verfügung. In diesem seltenen Archiv habe ich eine DOCX- Datei mit einfachen Absätzen gebündelt und ihre TXT- Datei mit Word mit den oben genannten Optionen exportiert . Letzteres kann mit einem Standardlauf von docx2txt
in der Quelldatei verglichen werden.