Intro:
Ich habe einen Datensatz mit einem klassischen "großen p, kleinen n-Problem". Die Anzahl der verfügbaren Stichproben n = 150, während die Anzahl der möglichen Prädiktoren p = 400 ist. Das Ergebnis ist eine kontinuierliche Variable.
Ich möchte die "wichtigsten" Deskriptoren finden, dh diejenigen, die die besten Kandidaten für die Erklärung des Ergebnisses und die Erstellung einer Theorie sind.
Nach Recherchen zu diesem Thema fand ich heraus, dass LASSO und Elastic Net üblicherweise für den Fall von großen p, kleinen n verwendet werden. Einige meiner Prädiktoren sind stark korreliert und ich möchte ihre Gruppierungen bei der Bewertung der Wichtigkeit beibehalten. Deshalb habe ich mich für Elastic Net entschieden . Ich nehme an, dass ich Absolutwerte von Regressionskoeffizienten als Maß für die Wichtigkeit verwenden kann (bitte korrigieren Sie mich, wenn ich mich irre; mein Datensatz ist standardisiert).
Problem:
Wie kann ich ein stabiles Modell erhalten, da ich nur eine geringe Anzahl von Proben habe?
Mein aktueller Ansatz ist es, die besten Abstimmungsparameter (Lambda und Alpha) in einer Rastersuche in 90% des Datensatzes mit einer 10-fachen Kreuzvalidierung zu finden, wobei der MSE-Score gemittelt wird. Dann trainiere ich das Modell mit den besten Abstimmungsparametern für die gesamten 90% des Datensatzes. Ich bin in der Lage, mein Modell mit dem Quadrat R auf dem Holdout 10% des Datensatzes zu bewerten (was nur 15 Stichproben entspricht).
Wenn ich dieses Verfahren wiederholt durchführe, stelle ich eine große Varianz bei den R-Quadrat-Bewertungen fest. Ebenso variiert die Anzahl von Prädiktoren ungleich Null sowie deren Koeffizienten.
Wie kann ich eine stabilere Einschätzung der Bedeutung von Prädiktoren und eine stabilere Einschätzung der endgültigen Modellleistung erhalten?
Kann ich meine Prozedur wiederholt ausführen, um eine Reihe von Modellen und dann durchschnittliche Regressionskoeffizienten zu erstellen? Oder sollte ich die Anzahl der Vorkommen eines Prädiktors in den Modellen als Wichtigkeitsfaktor verwenden?
Gegenwärtig erhalte ich ungefähr 40-50 Prädiktoren ungleich Null. Sollte ich die Anzahl der Prädiktoren für eine bessere Stabilität härter bestrafen?