Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir jedoch "nicht" aus diesen Sätzen unten entfernen, verlieren sie die signifikante Bedeutung und das wäre für die Themenmodellierung oder Stimmungsanalyse nicht korrekt.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Kann jemand bitte erklären, warum diese Negationswörter normalerweise als Stoppwörter betrachtet werden?