Ich suche nach Hinweisen, wie man eine Liste von Stoppwörtern kuratiert. Kennt / kann jemand eine gute Methode empfehlen, um Stoppwortlisten zur Vorverarbeitung und Filterung aus dem Datensatz selbst zu extrahieren?
Die Daten:
Eine große Menge menschlicher Texteingaben mit variabler Länge (Suchbegriffe und ganze Sätze (bis zu 200 Zeichen)) über mehrere Jahre. Der Text enthält viel Spam (wie maschinelle Eingaben von Bots, einzelne Wörter, dumme Suchen, Produktsuchen ...) und nur wenige Prozent davon scheinen nützlich zu sein. Mir wurde klar, dass manchmal (nur sehr selten) Leute meine Seite durchsuchen, indem sie wirklich coole Fragen stellen. Diese Fragen sind so cool, dass ich denke, es lohnt sich, sie genauer zu betrachten, um zu sehen, wie Menschen im Laufe der Zeit suchen und welche Themen die Menschen an der Nutzung meiner Website interessiert haben.
Mein Problem:
ist, dass ich wirklich mit der Vorverarbeitung zu kämpfen habe (dh den Spam fallen lassen). Ich habe bereits eine Stoppwortliste aus dem Internet (NLTK usw.) ausprobiert, aber diese helfen meinen Anforderungen in Bezug auf diesen Datensatz nicht wirklich.
Vielen Dank für Ihre Ideen und Diskussionen!
stop words
. Stop-wrods ist eine Liste der am häufigsten verwendeten Wörter in einer Sprache, zum Beispiel I
, the
, a
und so weiter. Sie werden diese Wörter einfach aus Ihrem Text entfernen, bevor Sie mit dem Trainieren Ihres Algorithmus beginnen, um festzustellen, welcher Text Spam ist oder nicht. Es hat Ihnen nicht geholfen zu erkennen, welcher Text Spam ist oder nicht, es kann Ihren Lernalgorithmus verbessern.