Ich bin also ein Neuling im ML-Bereich und versuche, eine Einteilung vorzunehmen. Mein Ziel ist es, den Ausgang eines Sportereignisses vorherzusagen. Ich habe einige historische Daten gesammelt und versuche nun, einen Klassifikator zu trainieren. Ich habe ungefähr 1200 Proben erhalten, 0,2 davon habe ich zu Testzwecken abgespalten, andere habe ich in die Rastersuche (Kreuzvalidierung eingeschlossen) mit verschiedenen Klassifikatoren aufgenommen. Ich habe SVM im Moment mit linearen, rbf- und polynominalen Kerneln und Random Forests ausprobiert. Leider kann ich keine Genauigkeit erhalten, die signifikant größer als 0,5 ist (das gleiche wie die zufällige Wahl der Klasse). Bedeutet das, dass ich den Ausgang eines so komplexen Ereignisses nicht vorhersagen kann? Oder kann ich mindestens 0,7-0,8 Genauigkeit bekommen? Wenn es machbar ist, worauf sollte ich als nächstes achten?
- Weitere Daten abrufen? (Ich kann den Datensatz bis zu fünfmal vergrößern.)
- Probieren Sie verschiedene Klassifikatoren aus? (Logistische Regression, kNN usw.)
- Funktionsumfang neu bewerten? Gibt es ML-Tools zu analysieren, welche Funktionen sinnvoll sind und welche nicht? Vielleicht sollte ich meinen Funktionsumfang reduzieren (derzeit habe ich 12 Funktionen)?