RandomForest negative Werte mit variabler Wichtigkeit


Antworten:


5

Die variable Wichtigkeit in zufälligen Wäldern wird wie folgt berechnet:

  1. Zunächst wird die MSE des Modells mit den ursprünglichen Variablen berechnet
  2. Dann werden die Werte einer einzelnen Spalte permutiert und die MSE erneut berechnet. Wenn beispielsweise eine Spalte (Spalte 1) die Werte 1,2,3,4 annimmt und eine zufällige Permutation der Werte zu 4,3,1,2 führt. Dies führt zu einer MSE1. Dann würde eine Erhöhung der MSE, dh MSE1 - MSE, die Bedeutung der Variablen anzeigen.

  3. Wir erwarten, dass der Unterschied positiv ist, aber im Fall einer negativen Zahl bedeutet dies, dass die zufällige Permutation besser funktioniert hat. Es kann gefolgert werden, dass die Variable keine Rolle bei der Vorhersage spielt, dh nicht wichtig ist.

Hoffe das hilft!

Eine ausführliche Erklärung finden Sie unter folgendem Link!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

Dies kann nur eine zufällige Schwankung sein (zum Beispiel, wenn Sie einen kleinen Baum haben).

Wenn nicht, kann dies zeigen, dass Ihre Daten eine Reihe schwerwiegender Paradoxien aufweisen, dh Objektpaare mit nahezu identischen Prädiktoren und sehr unterschiedlichen Ergebnissen. In diesem Fall würde ich zweimal prüfen, ob das Modell tatsächlich Sinn macht, und darüber nachdenken, wie ich mehr Attribute erhalten könnte, um sie aufzulösen.


2
Könnten Sie die "Paradoxe in Daten" etwas näher erläutern? Ich bin nicht ganz gefolgt und würde gerne verstehen, was Sie erklären.
JEquihua
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.