Verwendung der Regularisierung bei statistischen Inferenzen


17

Ich kenne die Vorteile der Regularisierung bei der Erstellung von Vorhersagemodellen (Bias vs. Varianz, Vermeidung von Überanpassung). Aber ich frage mich, ob es eine gute Idee ist, auch Regularisierungen durchzuführen (Lasso, Grat, elastisches Netz), wenn der Hauptzweck des Regressionsmodells darin besteht, auf die Koeffizienten zu schließen (zu sehen, welche Prädiktoren statistisch signifikant sind). Ich würde gerne die Gedanken der Leute hören sowie Links zu akademischen Zeitschriften oder nicht-akademischen Artikeln, die sich damit befassen.


3
Die Regularisierung kann mit bayesianischen Augen gesehen werden, zum Beispiel entspricht Lasso einem doppelten Exponentialprior (wobei die Skala durch Kreuzvalidierung gewählt wird). So ist eine Möglichkeit, volle bayes zu gehen.
kjetil b halvorsen

1
zu bestimmen, welche Prädiktoren ungleich Null sind, ist das, worum es bei Lasso geht! Wenn Sie feststellen möchten, welche statistisch signifikant von Null verschieden sind, sollten Sie Methoden wie lasso
user795305,

Antworten:


8

Der Begriff "Regularisierung" umfasst eine Vielzahl von Methoden. Zum Zweck dieser Antwort werde ich "bestrafte Optimierung" meinen, dh Ihrem Optimierungsproblem eine Strafe von oder hinzufügen .L 2L1L2

Wenn dies der Fall ist, lautet die Antwort definitiv "Ja! Nun, irgendwie".

Der Grund dafür ist , dass eine Zugabe oder zu Strafe an die Likelihood - Funktion führt genau wie das Hinzufügen entweder ein Laplace oder Gaußsche zu einer Wahrscheinlichkeit eines vor der gleichen mathematischen Funktion die hintere Verteilung (Elevator Pitch zu erhalten: vor Verteilung Unsicherheit von Parametern beschreibt Bevor Daten angezeigt werden, beschreibt die posteriore Verteilung die Unsicherheit von Parametern nach dem Anzeigen von Daten. Dies führt zu Bayes'schen Statistiken 101. Bayes'sche Statistiken sind sehr beliebt und werden ständig durchgeführt, um auf geschätzte Auswirkungen schließen zu können.L 2L1L2

Das war das "Ja!" Teil. Das "Nun, irgendwie" ist, dass die Optimierung Ihrer posterioren Verteilung erfolgt und als "Maximum A Posterior" (MAP) -Schätzung bezeichnet wird. Die meisten Bayesianer verwenden jedoch keine MAP-Schätzung, sondern verwenden MCMC-Algorithmen aus der posterioren Verteilung! Dies hat mehrere Vorteile, von denen einer darin besteht, dass die Varianzkomponenten tendenziell weniger nach unten gerichtet sind.

Der Kürze halber habe ich versucht, nicht näher auf die Bayes'schen Statistiken einzugehen, aber wenn Sie dies interessiert, sollten Sie hier nachsehen.


2
(+1) Aber wenn ich diese Prioritäten nur verwendet habe, weil sie gute Vorhersagen liefern - ich habe sie vielleicht zu diesem Zweck abgestimmt -, was soll ich dann mit den MAP-Schätzungen oder den posterioren Verteilungen anfangen? (Wenn ich die Vorgesetzten dazu gebracht habe, das Wissen über die Parameter darzustellen, bevor ich die Daten gesehen habe, weiß ich genau, was ich daraus machen soll.)
Scortchi - Reinstate Monica

1
@Scortchi: Das ist ein sehr guter Punkt: Die Verwendung der Kreuzvalidierung zur Auswahl von Strafen führt Sie aus dem klassischen Bayes'schen Rahmen heraus (soweit ich weiß). Die Erstellung eines Modells mit einem Lebenslauf zur Auswahl von Regularisierungsparametern würde nicht mit dieser Antwort zusammenfallen, sondern die Verwendung einer Regularisierung mit festen Strafen, die auf der Grundlage von Experteninformationen ausgewählt wird.
Cliff AB

2
Ein Wort der Vorsicht: Der vorherige + MCMC-Ansatz liefert nur dann gültige Ergebnisse, wenn die posterioren Werte für alle potenziellen Koeffizienten untersucht und angegeben werden. Andernfalls befinden wir uns in einer Einstellung für selektive Inferenz und die meisten naiven Inferenzmethoden sind ungültig.
user3903581

(+1) Gute Antwort! Ich denke jedoch, dass es sich lohnen kann, den Satz zu klären: "Aber die meisten Bayesianer verwenden keine MAP-Schätzung, sondern stechen mit MCMC-Algorithmen aus der posterioren Verteilung!" Es scheint, als wollten Sie sagen, dass die meisten Bayesianer bei der Auswahl ihres Schätzers den vollen posterioren Wert verwenden. Beachten Sie, dass aus der Stichprobe für die posteriore Verteilung eine Schätzung für den MAP erstellt werden kann, um das Problem zu erkennen.
user795305

8

Es gibt einen großen Unterschied zwischen der Durchführung einer Schätzung unter Verwendung von Strafen vom Typ Ridge und Strafen vom Typ Lasso. Ridge-Typ-Schätzer neigen dazu, alle Regressionskoeffizienten in Richtung Null zu verkleinern und sind voreingenommen, lassen sich jedoch leicht als asymptotische Verteilung ableiten, da sie keine Variable auf genau Null verkleinern. Die Verzerrung bei den Kammschätzungen kann bei der anschließenden Durchführung von Hypothesentests problematisch sein, aber ich bin kein Experte auf diesem Gebiet. Andererseits verringern Strafen vom Typ Lasso / elastisches Netz viele Regressionskoeffizienten auf Null und können daher als Modellauswahltechniken angesehen werden. Das Problem der Inferenz an Modellen, die auf der Grundlage von Daten ausgewählt wurden, wird üblicherweise als das Problem der selektiven Inferenz oder die Inferenz nach der Auswahl bezeichnet. Dieses Gebiet hat in den letzten Jahren viele Entwicklungen erfahren.

yN(μ,1)μμ|y|>c>0cycy

In ähnlicher Weise schränkt das Lasso (oder elastische Netz) den Probenraum so ein, dass sichergestellt ist, dass das ausgewählte Modell ausgewählt wurde. Diese Kürzung ist komplizierter, kann aber analytisch beschrieben werden.

Basierend auf dieser Erkenntnis kann eine Inferenz basierend auf der abgeschnittenen Verteilung der Daten durchgeführt werden, um gültige Teststatistiken zu erhalten. Zu Konfidenzintervallen und Teststatistiken siehe die Arbeit von Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

Ihre Methoden sind im R-Paket selectiveInference implementiert .

Die optimale Schätzung (und Prüfung) nach der Modellauswahl wird in (für das Lasso): https://arxiv.org/abs/1705.09417 erörtert

und ihr (weitaus weniger umfassendes) Softwarepaket finden Sie unter: https://github.com/ammeir2/selectiveMLE


4

Ich würde LASSO besonders empfehlen, wenn Sie versuchen, eine Regression für Inferenzen zu verwenden, die darauf basieren, "welche Prädiktoren statistisch signifikant sind" - aber nicht aus dem erwarteten Grund.

In der Praxis besteht die Tendenz, dass Prädiktoren in einem Modell korreliert sind. Auch wenn es keine wesentliche Multikollinearität gibt, kann die Auswahl "signifikanter" Prädiktoren durch die Regression unter den korrelierten Prädiktoren von Stichprobe zu Stichprobe erheblich variieren.

Also ja, machen Sie LASSO für Ihre Regression. Wiederholen Sie dann den gesamten Modellbildungsprozess (einschließlich der Kreuzvalidierung, um die LASSO-Strafe zu ermitteln) an mehreren Bootstrap-Beispielen (etwa einige hundert) aus den Originaldaten. Sehen Sie, wie variabel die Menge der auf diese Weise ausgewählten "signifikanten" Prädiktoren sein kann.

Sofern Ihre Prädiktoren nicht stark orthogonal zueinander sind, sollten Sie sich bei diesem Vorgang zweimal überlegen, ob Sie p-Werte in einer Regression dahingehend interpretieren sollen, welche einzelnen Prädiktoren "signifikant" wichtig sind.


1
+1 Ich stimme mit allem überein, was geschrieben steht, sehr pragmatische Antwort, aber warum nicht statt LASSO elastisches Netz verwenden? (In Anbetracht dessen, dass das OP dies auch erwähnt). Die First-Regularisierung würde die Korrelationen zwischen Prädiktoren etwas stärker kontrollieren.
usεr11852 sagt Reinstate Monic

Es ist in der Tat möglich, gültige p-Werte, Schätzungen und Konfidenzintervalle in Modellen zu berechnen, die über das Lasso ODER das elastische Netz ausgewählt wurden.
user3903581

@ user3903581 Ich bestreite nicht, dass man gültige LASSO-p-Werte für Frequentisten erhalten kann, in dem Sinne, dass eine echte Nullhypothese zu einem so großen Koeffizienten führen würde, der kleiner ist als beispielsweise 5% der Wiederholungsproben. Das Problem liegt in den allzu häufigen Versuchen, kausale Schlussfolgerungen nur den Prädiktoren zuzuschreiben, die als "signifikant" erachtet werden, ohne die Probleme zu berücksichtigen, die durch korrelierte Prädiktoren aufgeworfen werden.
EdM
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.