Lasso und statistische Signifikanz ausgewählter Variablen

7

Ich betrachte ein Regressionsmodell, bei dem eine sehr große Anzahl möglicher erklärender Variablen bewertet wird und schließlich eine kleine Anzahl über die Lasso-Methode der Variablenauswahl ausgewählt wird. Das $\lambda$ Der Abstimmungsparameter im Lasso wird anhand der Leistung der Kreuzvalidierungsprognose ausgewählt, die ziemlich normal ist.

Wenn ich jedoch die Liste der ausgewählten Variablen nehme und nur OLS darauf ausführe, erweisen sich viele als statistisch nicht signifikant. Das kann vollkommen in Ordnung sein, wenn sie gemeinsam von Bedeutung sind und die Prognoseleistung anderen Modellen überlegen ist (außerdem stellt sich die Frage, was der T-Test bedeutet, wenn Sie die Variablen bereits in einem separaten Schritt überprüft haben, aber ich ' Ich lasse das beiseite).

Ich bin jedoch gespannt, ob es sinnvoll ist , die statistische Signifikanz einzelner Variablen in einem von Lasso ausgewählten Modell anhand der CV-Prognoseleistung zur Auswahl des Abstimmungsparameters zu untersuchen . Das Problem ist, dass Lasso letztendlich verschiedene Dummy-Variablen auswählt, die nur für kleine Teile der Bevölkerung zutreffen und für OLS unbedeutend sind, und es stellt sich natürlich die Frage, ob das Modell wertend vereinfacht werden sollte.

statistical-significance feature-selection lasso

— Abiel
quelle

Was ist Ihr Ziel bei dieser Analyse? Interessieren Sie sich für Vorhersagegenauigkeit oder für das Testen von Inferenznullhypothesen? Wenn Sie nicht an Hypothesentests interessiert sind, welche Informationen liefern Ihnen die p-Werte in Ihrer Analyse?

— Matthew Drury

2

Hier sind mindestens zwei Dinge zu beachten.

Zunächst ist es wichtig zu erkennen, dass die p-Werte in einer Regression einige Annahmen treffen, um gültig zu sein. Am wichtigsten für Ihren Fall ist, dass Sie wie folgt vorgehen:

Ich habe Daten gesammelt und mich für ein Modell entschieden, ohne auf die von mir gesammelten Daten zu achten. Dann passe ich mein vorbestimmtes Modell an, von dem ich annehme, dass es gut zu den Daten passt, ohne es wirklich zu überprüfen und Änderungen vorzunehmen.

Unter diesen Annahmen sind die p-Werte aussagekräftig. Wenn Sie Änderungen an Ihrem Modell basierend auf den von Ihnen gesammelten Daten vornehmen, ist die Variablenauswahl mit dem LASSO beispielsweise die aus einem linearen Modell geschätzten p-Werte nicht aussagekräftig. Dieser Teil der Frage kann durch die Antwort von user2530062 auf diese Frage beantwortet werden, da p-Werte für Sie tatsächlich von Interesse sind.

Zweitens stellt sich die Frage, welche Frage Sie zu beantworten versuchen. Die p-Werte befassen sich mit einer ganz bestimmten Frage:

Unter der Annahme, dass dieses Modell für die von mir gesammelten Daten korrekt ist und dass der wahre Wert dieses Parameters, den ich schätzen möchte, in Wirklichkeit Null ist, wie hoch ist die Wahrscheinlichkeit, dass ich einen gleichen oder extremeren Wert des geschätzten Wertes beobachten würde Parameter, wenn ich mein Modell an eine Stichprobe von Daten anpasse, die aus diesem Prozess stammen.

Wenn dies die Frage ist, die Sie beantworten möchten, müssen Sie Ihr Modell sorgfältig so konstruieren, dass der p-Wert gültig ist. Ich vermute jedoch, dass dies nicht die Frage ist, die Sie tatsächlich beantworten möchten. Vielleicht ist Ihre Frage eher so:

Wie hoch ist die Wahrscheinlichkeit, dass die Aufnahme dieses Parameters in das Modell die Vorhersagegenauigkeit meines Modells für diesen Prozess verbessert?

Ein p-Wert gibt Ihnen keine wirklichen Informationen zu dieser Frage oder zur Unendlichkeit anderer Fragen, für die p-Werte nicht entwickelt wurden. Stattdessen sollten Sie eine Prozedur entwerfen, um genau das zu messen, woran Sie interessiert sind. Im obigen Beispiel eine strenge Prozedur, bei der mithilfe des Bootstraps die Wahrscheinlichkeit geschätzt wird, dass die Aufnahme des Parameters in das Modell die Vorhersagegenauigkeit verbessert, sowie eine Kreuzvalidierung, um die zu schätzen Regularisierungsparameter, würde Ihnen gut tun.

— Matthew Drury
quelle

Entschuldigen Sie einen Kommentar außerhalb des Themas, aber ich frage mich, ob Sie zu dieser (etwas verwandten) Frage von mir eine Meinung haben .

— Richard Hardy

1

In diesem Artikel wird versucht, einen Ansatz zur Berechnung der p-Werte im Elasticnet bereitzustellen. Ich hatte Mühe, Zeit für die Implementierung zu finden, da es experimentell zu sein scheint und in keinem offiziellen R-Paket enthalten ist.

http://statweb.stanford.edu/~tibs/ftp/covtest.pdf

Es beantwortet nicht den theoretischen Teil Ihrer Frage, kann Sie jedoch einer Antwort näher bringen, wenn Sie p-Werte für elastisches Netz berechnen.

— user2530062
quelle

Tatsächlich konzentriert sich das Papier, auf das Sie verweisen, hauptsächlich auf Lasso, obwohl es in einem seiner Kapitel auch das elastische Netz berücksichtigt.

— Richard Hardy