Zufälliger Wald: Klassenspezifische Merkmalsbedeutung


7

Ich benutze das bigrfR-Paket, um einen Datensatz mit ca. zu analysieren. 50.000 Beobachtungen x 120 Variablen, klassifiziert in zwei Gruppen.

Nachdem ich einen Wald mit 1000 Bäumen gezüchtet habe, untersuche ich die Bedeutung und Beziehung der 120 Merkmale in Bezug auf die beiden Klassen mit den Funktionen fastimpund interactions, die sehr schöne Ergebnisse liefern.

Jetzt bin ich jedoch daran interessiert, das Problem mit 3 (oder mehr) statt 2 Klassen zu untersuchen. In diesem Fall fastimpbezieht sich die von berechnete Bedeutung der Gini-Variablen nur auf die Gesamtbedeutung.

Meine Frage ist: Gibt es eine Möglichkeit, eine klassenspezifische Bedeutung der Gini-Variablen oder ein ähnliches Maß zu berechnen?


siehe diesen verwandten Thread auf SO. Bitte lassen Sie mich wissen, wenn Sie die Lösung finden.
Antoine

Antworten:


-1

Es gibt mehrere Möglichkeiten, dies zu tun

1) Visualisierung - Sie können die Häufigkeit / Häufigkeit jedes ausgewählten Features in jeder Gruppe als Balkendiagramm darstellen. Ich gehe davon aus, dass das Top-Feature in einer Gruppe im Vergleich zu den anderen Gruppen visuell häufiger vorkommt.

2) Vollständige Methode - Erstellen Sie 3 Random Forest-Modelle auf jedem Paar von zwei Etiketten. Ordnen Sie die Merkmale in jeder Kombination ein und zeichnen Sie schließlich das Ergebnis auf und prüfen Sie, ob die Gini-Werte für Merkmal x in beiden Kombinationen höher sind.


Ich hätte gerne gehört, warum meine Antwort herabgestuft wurde. Ich kann immer aktualisieren und Antworten hinzufügen.
user4581
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.