Antworten:
Mit Cygwin (oder Zugriff auf einen Linux-Computer) könnten Sie
antiword file.doc | grep "my phrase"
oder
catdoc file.doc | grep "my phrase"
Es gibt viele Konverter für Befehlszeilendateiformate, die auf ähnliche Weise grep .
Eine reine In-Word-Lösung könnte Strg + F (Suchen) und dann Alle suchen sein. Ich bin mir jedoch nicht sicher, ob alle Versionen von MS Word die Schaltfläche Alle suchen haben.
catdoc
Segfaults für jede .doc
/ .docx
Datei, die ich gebe, und antiword
sagt mir nur, dass mein Dokument "kein Word-Dokument ist". Kennen Sie andere Möglichkeiten?
docx2txt
es in Debian-Repositorys existiert - könnte funktionieren. Ich würde auch das OpenOffice / LibreOffice-Dienstprogramm zur Konvertierung des Befehlszeilenformats (unoconv) untersuchen, das für denselben Zweck verwendet werden könnte.
Was bedeutet "Linie" in einem Word-Kontext? Die angezeigte Zeile, die sich ändert, wenn Sie etwas an der Seitenformatierung ändern? Der Paragraph? Etwas anderes?
Mit den Such- und Ersetzungsfunktionen von Word können Sie eine Reihe von Aufgaben erledigen, einschließlich der Änderung der Formatierung und anderer nicht offensichtlicher Dinge. Alle Funktionen wirken sich jedoch nur auf den Find-What-Text selbst aus, nicht auf umgebenden Text.
In CRGREP, das ich als kostenloses OpenSource-Tool entwickelt habe, werden MS-Dokumente - Word, PowerPoint, Excel - unterstützt . Es greift auch andere schwer zu durchsuchende Dinge wie Datenbanktabellen, Bilder, Audio, Archive, PDF und Kombinationen davon auf. Habe Spaß.
Ich habe nicht genug Repräsentanten, um einen Kommentar abzugeben, aber ich kann sehen, dass dieses Problem zwischen doc und docx besprochen wurde, sodass jeder, der den Thread verfolgt (wie ich es war), dies hilfreich finden kann.
Für docx-Dateien benötigen Sie kein spezielles Tool. docx sind komprimierte XML-Dateien.
Um das XML zu extrahieren und zu entfernen, versuchen Sie etwas basierend auf
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
von der Kommandozeile fu
Schnelle, kostenlose, Open Source- und plattformübergreifende Lösung: https://github.com/phiresky/ripgrep-all