Ich betrachte ein Regressionsmodell, bei dem eine sehr große Anzahl möglicher erklärender Variablen bewertet wird und schließlich eine kleine Anzahl über die Lasso-Methode der Variablenauswahl ausgewählt wird. Das Der Abstimmungsparameter im Lasso wird anhand der Leistung der Kreuzvalidierungsprognose ausgewählt, die ziemlich normal ist.
Wenn ich jedoch die Liste der ausgewählten Variablen nehme und nur OLS darauf ausführe, erweisen sich viele als statistisch nicht signifikant. Das kann vollkommen in Ordnung sein, wenn sie gemeinsam von Bedeutung sind und die Prognoseleistung anderen Modellen überlegen ist (außerdem stellt sich die Frage, was der T-Test bedeutet, wenn Sie die Variablen bereits in einem separaten Schritt überprüft haben, aber ich ' Ich lasse das beiseite).
Ich bin jedoch gespannt, ob es sinnvoll ist , die statistische Signifikanz einzelner Variablen in einem von Lasso ausgewählten Modell anhand der CV-Prognoseleistung zur Auswahl des Abstimmungsparameters zu untersuchen . Das Problem ist, dass Lasso letztendlich verschiedene Dummy-Variablen auswählt, die nur für kleine Teile der Bevölkerung zutreffen und für OLS unbedeutend sind, und es stellt sich natürlich die Frage, ob das Modell wertend vereinfacht werden sollte.