NLP - warum ist "nicht" ein Stoppwort?


17

Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir jedoch "nicht" aus diesen Sätzen unten entfernen, verlieren sie die signifikante Bedeutung und das wäre für die Themenmodellierung oder Stimmungsanalyse nicht korrekt.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Kann jemand bitte erklären, warum diese Negationswörter normalerweise als Stoppwörter betrachtet werden?


2
Wenn Sie eine semantische Analyse von Sätzen durchführen, sind offensichtlich logische Verknüpfungen wichtig: (1) wenn nicht (2). Wenn Sie beabsichtigen, die Logik dieser Sätze zu modellieren, bewahren Sie sie nicht in der Stopp-Tasche auf. Sie werden normalerweise dort eingefügt, weil das Vorhandensein von "Nicht" in einem Dokument aus Data-Mining-Sicht nicht viel über das Thema aussagt, um es von anderen Dokumenten unterscheiden zu können. es ist nicht selten genug. Es gibt wahrscheinlich andere Gründe, sie in nlp-Tasks zu ignorieren.
Hunan Rostomyan

Antworten:


20

Stoppwörter werden normalerweise als "die häufigsten Wörter in einer Sprache" angesehen. Es sind jedoch auch andere Definitionen möglich, die auf anderen Aufgaben beruhen.

Es ist eindeutig sinnvoll, "nicht" als Stoppwort zu betrachten, wenn Ihre Aufgabe auf Worthäufigkeiten basiert (z. B. tf-idf- Analyse zur Dokumentklassifizierung).

Wenn Sie sich mit dem Kontext (z. B. Stimmungsanalyse ) des Textes befassen, kann es sinnvoll sein, Negationswörter anders zu behandeln. Negation ändert die sogenannte Wertigkeit eines Textes. Dies muss sorgfältig behandelt werden und ist in der Regel nicht trivial. Ein Beispiel wäre das Twitter Negation Corpus. Eine Erklärung des Ansatzes finden Sie in diesem Artikel .

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.