Ich wende einen zufälligen Gesamtstrukturalgorithmus als Klassifikator auf ein Microarray-Dataset an, das in zwei bekannte Gruppen mit Tausenden von Features aufgeteilt ist. Nach dem ersten Start schaue ich mir die Wichtigkeit der Features an und starte den Tree-Algorithmus erneut mit den wichtigsten Features 5, 10 und 20. Ich finde, dass für alle Features, Top 10 und 20, die OOB-Schätzung der Fehlerrate 1,19% beträgt, während sie für die Top 5-Features 0% beträgt. Dies scheint mir kontraintuitiv zu sein, daher habe ich mich gefragt, ob Sie erklären können, ob mir etwas fehlt oder ob ich die falsche Metrik verwende.
Ich benutze das randomForest-Paket in R mit ntree = 1000, node size = 1 und mtry = sqrt (n)