Wenn Sie ein CART-Modell (insbesondere einen Klassifizierungsbaum) mit rpart (in R) erstellen, ist es häufig interessant zu wissen, welche Bedeutung die verschiedenen Variablen haben, die in das Modell eingeführt werden.
Meine Frage lautet daher: Welche gängigen Maße gibt es für das Ranking / Messen der Variablenwichtigkeit von beteiligten Variablen in einem CART-Modell? Und wie kann dies mit R berechnet werden (zum Beispiel bei Verwendung des rpart-Pakets)
Hier ist beispielsweise ein Dummy-Code, der erstellt wurde, damit Sie Ihre Lösungen darauf anzeigen können. Dieses Beispiel ist so strukturiert, dass klar ist, dass die Variablen x1 und x2 "wichtig" sind, während x1 (in gewissem Sinne) wichtiger ist als x2 (da x1 für mehr Fälle gelten sollte und somit mehr Einfluss auf die Struktur der Daten hat). dann x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(Referenzen sind immer willkommen)