Verwendet Breimans zufälliger Wald Informationsgewinn oder Gini-Index?

Ich würde gerne wissen, ob Breimans zufälliger Wald (zufälliger Wald in R randomForest-Paket) als Aufteilungskriterium (Kriterium für die Attributauswahl) Informationsgewinn oder Gini-Index verwendet. Ich habe versucht, es auf http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm und in der Dokumentation für das randomForest-Paket in R herauszufinden. Aber das einzige, was ich gefunden habe, ist, dass der Gini-Index dafür verwendet werden kann Computer mit variabler Wichtigkeit.

r random-forest entropy gini

— jemand
quelle

Ich frage mich auch, ob Bäume aus zufälligen Wäldern im randomForest-Paket binär sind oder nicht.

— Jemand

Das randomForest-Paket in R von A. Liaw ist ein Port des Originalcodes, der eine Mischung aus C-Code (übersetzt), etwas verbleibendem Fortran-Code und R-Wrapper-Code ist. Um die bestmögliche Aufteilung über Haltepunkte und über mtry-Variablen zu bestimmen, verwendet der Code eine Bewertungsfunktion ähnlich der von gini-gain:

$GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2})$

Wenn $X$ ein gegebenes Merkmal ist, ist $N$ der Knoten, an dem die Aufteilung erfolgen soll, und $N_{1}$ und $N_{2}$ sind die zwei untergeordneten Knoten, die durch Aufteilung von $N$ . $\lvert . \rvert$ ist die Anzahl der Elemente in einem Knoten.

Und $Gini(N)=1-\sum_{k=1}^{K}p_{k}^2$ , wobei $K$ die Anzahl der Kategorien im Knoten ist

Die angewendete Scoring-Funktion ist jedoch nicht exakt dieselbe, sondern eine gleichwertige, recheneffizientere Version. $Gini(N)$ und | N | sind für alle verglichenen Splits konstant und werden daher weggelassen.

Untersuchen den Teil auch, wenn die Summe der Quadratprävalenz in einem Knoten (1) als $\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{2}) \propto |N_2| Gini(N_{2}) = |N_2| (1-\sum_{k=1}^{K}p_{k}^2 ) = |N_2| \sum \frac{nclass_{2,k}^2}{|N_2|^2}$

Dabei ist die Klassenanzahl der k im Tochterknoten 1. Hinweiswird sowohl im Nominator als auch im Nenner platziert. $nclass_{1,k}$ $|N_2|$

Entfernen der Trivialkonstante aus der Gleichung, so dass die beste Aufteilungsentscheidung darin besteht, die knotengrößengewichtete Summe der quadratischen Klassenprävalenz zu maximieren ... $1-$

score = $|N_1| \sum_{k=1}^{K}p_{1,k}^2 + |N_2| \sum_{k=1}^{K}p_{2,k}^2 = |N_1|\sum_{k=1}^{K}\frac{nclass_{1,k}^2}{|N_1|^2} + |N_2|\sum_{k=1}^{K}\frac{nclass_{2,k}^2}{|N_2|^2}$ $= \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-1} + \sum_{k=1}^{K}\frac{nclass_{2,k}^2}{1} |N_1|^{-2}$ $= nominator_1/denominator_1 + nominator_2/denominator_2$

Die Implementierung ermöglicht auch das klassenspezifische Hoch- / Runtergewichten von Samples. Ebenfalls sehr wichtig, wenn die Implementierung diese modifizierte Gini-Verstärkung aktualisiert, ist das Verschieben eines einzelnen Samples von einem Knoten zum anderen sehr effizient. Die Stichprobe kann von den Nennern / Nennern eines Knotens subtrahiert und zu den anderen addiert werden. Ich habe vor einigen Monaten einen Prototyp-RF geschrieben, der ignorant für jeden Breakpoint den Gini-Gain von Grund auf neu berechnet und das war langsamer :)

Wenn mehrere Zwischenergebnisse am besten sind, wird ein zufälliger Gewinner ausgewählt.

Diese Antwort basierte auf der Überprüfung der Quelldatei "randomForest.xxtar.gz / src / classTree.c", Zeile 209-250

— Soren Havelund Welling
quelle