Ich habe von jemandem ein R-Skript zum Ausführen eines zufälligen Gesamtstrukturmodells erhalten. Ich habe es geändert und mit einigen Mitarbeiterdaten ausgeführt. Wir versuchen, freiwillige Trennungen vorherzusagen.
Hier einige zusätzliche Informationen: Dies ist ein Klassifizierungsmodell, bei dem 0 = Mitarbeiter verblieben, 1 = Mitarbeiter gekündigt wurde. Wir sehen uns derzeit nur ein Dutzend Prädiktorvariablen an % des gesamten Datensatzes.
Ich starte das Modell mit verschiedenen Auswahlmöglichkeiten für mtry und ntree, habe mich aber für das Folgende entschieden. Die OOB beträgt 6,8% , was ich denke , ist gut, aber die Verwirrung Matrix scheint für die Vorhersage von Bedingungen eine andere Geschichte zu erzählen , da die Fehlerquote bei 92,79% recht hoch ist Bin ich recht in der Annahme , dass ich nicht verlassen können und nutzen dieses Modell , weil die hohe Fehlerrate für die Vorhersage von Begriffen? Oder gibt es etwas, das ich auch tun kann, um RF zu verwenden und eine geringere Fehlerrate für die Vorhersage von Begriffen zu erhalten?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908