Ich entferne Stoppwörter aus einem Text und verwende ungefähr diesen Code
Ich habe folgendes
$ cat file
file
types
extensions
$ cat stopwords
i
file
types
grep -vwFf stopwords file
Ich erwarte das Ergebnis:
extensions
aber ich bekomme das (ich denke falsch)
file
extensions
Es ist, als ob das Wort filein der Stoppwortdatei übersprungen wurde. Jetzt ist hier das kühle Bit: wenn ich die Stoppwörter - Datei ändern, indem Sie das Wort / den Wechsel iin der ersten Zeile, jeden anderen ascii Brief abgesehen von f, i, l, e, dann wird der gleiche Befehl grep gibt mir ein anderes und korrektes Ergebnis extensions.
Was ist hier los und wie behebe ich das?
Ich verwende grep (BSD grep) 2.5.1-FreeBSD auf einer Mac OSX GNU-Bash, Version 4.4.12 (1).
iMuster zum zweiten und nicht zum ersten Muster in der stopwordsDatei machen, ändert sich auch das Verhalten.
grepweder mit Native noch mit GNU grep3.1 reproduzieren .
-xSchalter für Zeilenregex anstelle von-wWort verwenden? Ich denke jedoch, dass der-FSchalter einen von ihnen aufheben wird oder umgekehrt.