Ich arbeite an einem Projekt in R, in dem ich ungefähr 1200 E-Mails von einem Unternehmen habe, von denen die meisten als Klasse 1 oder Klasse 2 gekennzeichnet sind. Dies sind die Arten von Anfragen. Ungefähr 1000 E-Mails sind mit Klasse und 200 mit Klasse Mein Ziel ist es, mithilfe von überwachtem Lernen ein Modell zu erstellen, das neue E-Mails klassifiziert.
Aber nach viel Vorverarbeitung (Parsen, Entfernen von Stoppwörtern usw.) und Ausprobieren typischer Algorithmen (SVM, Entscheidungsbäume usw.) in einer Dokumenttermmatrix enthielt meine Verwirrungsmatrix viele falsch positive und falsch negative, aber nur wenige falsch negative mit SVM.
Ich frage mich, wie ich meine Ergebnisse verbessern kann. Muss ich Oversampling oder Bi-Gramm-Feature-Darstellung verwenden? Ich denke, das Problem ist, dass die Themen der beiden Kategorien sehr eng sind.