Ich habe also eine Matrix von ungefähr 60 x 1000. Ich betrachte sie als 60 Objekte mit 1000 Merkmalen. Die 60 Objekte sind in 3 Klassen (a, b, c) eingeteilt. 20 Objekte in jeder Klasse, und wir kennen die wahre Klassifizierung. Ich möchte an diesem Satz von 60 Trainingsbeispielen überwachtes Lernen durchführen und interessiere mich sowohl für die Genauigkeit des Klassifikators (und die zugehörigen Metriken) als auch für die Auswahl der Funktionen für die 1000 Funktionen.
Wie ist meine Nomenklatur?
Nun die eigentliche Frage:
Ich könnte wie angegeben zufällige Wälder darauf werfen oder eine beliebige Anzahl anderer Klassifikatoren. Aber es gibt eine Subtilität - es ist mir wirklich nur wichtig, Klasse c von Klasse a und b zu unterscheiden. Ich könnte die Klassen a und b zusammenfassen, aber gibt es eine gute Möglichkeit, das a priori- Wissen zu nutzen, dass alle Nicht-C-Objekte wahrscheinlich zwei unterschiedliche Cluster bilden? Ich würde es vorziehen, zufällige Wälder oder eine Variante davon zu verwenden, da sich gezeigt hat, dass sie bei ähnlichen Daten wie meinen wirksam sind. Aber ich könnte überzeugt sein, einige andere Ansätze auszuprobieren.