Ich verwende das randomForest-Paket in R, um ein zufälliges Waldmodell zu entwickeln und zu versuchen, ein kontinuierliches Ergebnis in einem "breiten" Datensatz mit mehr Prädiktoren als Stichproben zu erklären.
Insbesondere passe ich ein RF-Modell an, mit dem das Verfahren aus einem Satz von ~ 75 Prädiktorvariablen auswählen kann, die ich für wichtig halte.
Ich teste, wie gut dieses Modell das tatsächliche Ergebnis für einen reservierten Testsatz vorhersagt, indem ich den hier zuvor beschriebenen Ansatz verwende , nämlich
... oder in R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Aber jetzt habe ich zusätzliche ~ 25 Prädiktorvariablen, die ich hinzufügen kann. Bei Verwendung des Satzes von ~ 100 Prädiktoren ist der R² höher. Ich möchte dies statistisch testen, mit anderen Worten, wenn der Satz von ~ 100 Prädiktoren verwendet wird, ist der Modelltest beim Testen von Daten signifikant besser als die Modellanpassung mit ~ 75 Prädiktoren. Das heißt, ist der R² aus dem Testen des RF-Modells, der auf den vollständigen Datensatz passt, signifikant höher als der R² aus dem Testen des RF-Modells auf den reduzierten Datensatz.
Dies ist für mich wichtig zu testen, da es sich um Pilotdaten handelt und es teuer war, diese zusätzlichen 25 Prädiktoren zu erhalten, und ich muss wissen, ob ich für die Messung dieser Prädiktoren in einer größeren Folgestudie zahlen muss.
Ich versuche, mir einen Resampling- / Permutationsansatz auszudenken, aber mir fällt nichts ein.