Ich bin ein Neuling, wenn es um maschinelles Lernen geht. Ich versuche, praktische Erfahrungen zu sammeln, indem ich verschiedene überwachte Lernalgorithmen mithilfe der Scikit-Learn-Bibliothek von Python analysiere. Ich verwende den sentiment140-Datensatz von 1,6 Millionen Tweets für die Stimmungsanalyse unter Verwendung verschiedener dieser Algorithmen.
Ich weiß nicht, ob es eine dumme Frage ist, aber ich habe mich gefragt, ob es möglich wäre, in drei Klassen (positiv, negativ und neutral) zu klassifizieren, wenn Sie nur über zwei Klassen (positiv und negativ) trainiert haben. Das sentiment140-Trainingsset besteht nur aus zwei Klassen (positiv und negativ) mit insgesamt 1,6 Millionen Tweets, aber das Testset besteht aus 500 Tweets über drei Klassen (positiv, negativ und neutral), sodass ich darüber nachgedacht habe.
Ist das also möglich? Wenn ja, wie gehe ich vor, um die neutralen Tweets zu identifizieren? Intuitiv kann ich verwenden, um die bedingte Wahrscheinlichkeit jedes klassifizierten Tweets im Testsatz für jede Klasse zu ermitteln (mithilfe von Predict_Proba) und festzustellen, ob es neutral ist, wenn es sowohl für die positive als auch für die negative Klasse unter einem bestimmten Schwellenwert (z. B. weniger als 0,7) liegt . Ist das der richtige Weg?
sentiment 140 training set
nur aus zwei Klassen besteht, wie kommt es, dass das Trainingsset aus drei Klassen besteht? Es ist unklar.