Ich versuche, mit LASSO eine Modellauswahl für einige Kandidaten-Prädiktoren mit einem kontinuierlichen Ergebnis durchzuführen. Das Ziel besteht darin, das optimale Modell mit der besten Vorhersageleistung auszuwählen, was normalerweise durch K-fache Kreuzvalidierung erfolgen kann, nachdem ein Lösungspfad der Abstimmungsparameter von LASSO erhalten wurde. Das Problem hierbei ist, dass die Daten aus einem komplexen mehrstufigen Umfragedesign (NHANES) mit Cluster-Stichproben und -Schichten stammen. Der Schätzteil ist nicht schwer, da glmnet
in R Stichprobengewichte genommen werden können. Der Teil der Kreuzvalidierung ist mir jedoch weniger klar, da die Beobachtungen jetzt nicht mehr zutreffen, und wie kann das Verfahren Stichprobengewichte berücksichtigen, die eine endliche Population darstellen?
Meine Fragen sind also:
1) Wie führt man eine K-fache Kreuzvalidierung mit komplexen Vermessungsdaten durch, um den optimalen Abstimmungsparameter auszuwählen? Genauer gesagt, wie können die Beispieldaten angemessen in Trainings- und Validierungssätze aufgeteilt werden? Und wie definiert man die Schätzung des Vorhersagefehlers?
2) Gibt es eine alternative Möglichkeit, den optimalen Abstimmungsparameter auszuwählen?