Ich habe einen Naive Bayes-Klassifikator erstellt, der die Bag-of-Word-Technik verwendet, um Spam-Posts auf einem Message Board zu klassifizieren. Es funktioniert, aber ich denke, ich könnte viel bessere Ergebnisse erzielen, wenn meine Modelle die Wortreihenfolgen und Phrasen berücksichtigen. (Beispiel: "Mädchen" und "Leben" lösen möglicherweise keine hohe Spam-Punktzahl aus, obwohl "Lebende Mädchen" höchstwahrscheinlich Junk sind.) Wie kann ich ein Modell erstellen, das die Wortreihenfolge berücksichtigt?
Ich habe überlegt, n-Gramm zu speichern (check-out-this, out-this-live, diese-live-girls), aber dies scheint die Größe des Wörterbuchs, in dem ich die Punktzahl behalte, radikal zu erhöhen und führt zu Inkonsistenzen als Phrasen mit sehr Ein ähnlicher Wortlaut, aber eine andere Reihenfolge wird durchgehen.
Ich bin nicht an die Bayes'sche Klassifikation gebunden, aber ich hätte gerne etwas, das jemand ohne starken statistischen Hintergrund nutzen und umsetzen könnte.