Wenn das LASSO einer linearen Regression mit einem Laplace entspricht, wie kann es Masse auf Mengen mit Komponenten bei Null geben?

Wir alle kennen die in der Literatur gut dokumentierte Vorstellung, dass die LASSO-Optimierung (der Einfachheit halber hier auf den Fall der linearen Regression beschränkt) ist äquivalent zu dem linearen Modell mit Gaußschen Fehlern, bei dem die Parameter mit dem Laplace-Prioritätswert sind. , je größer der Anteil der Parameter ist, desto Null wird gesetzt. Vor diesem Hintergrund habe ich folgende Gedankenfrage:

l O s s = ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

${\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1$

\exp (- λ ‖ β ‖_{1})

$\exp(-\lambda \| \beta \|_1 )$

λ

$\lambda$

Man bedenke, dass man aus Bayes-Sicht die posteriore Wahrscheinlichkeit berechnen kann, dass beispielsweise die Nicht-Null-Parameterschätzungen in einer gegebenen Sammlung von Intervallen liegen und die vom LASSO auf Null gesetzten Parameter gleich Null sind. Was mich verwirrt hat, ist, dass der Laplace-Prior stetig ist (tatsächlich absolut stetig). Wie kann es dann irgendeine Masse auf einer Menge geben, die ein Produkt von Intervallen und Singuletten bei ? $\{0\}$

lasso laplace-distribution

— Grant Izmirlian
quelle

Was lässt Sie denken, dass der Posterior nicht auch ein fortlaufendes PDF ist? Die Tatsache, dass das Maximum des Seitenzahns zufällig an einem Punkt auftritt, der viele 0-Komponenten enthält, bedeutet nicht, dass der Seitenzahn kein fortlaufendes PDF ist.

— Brian Borchers

Der hintere Teil ist ein fortlaufendes PDF. Wenn wir uns als eingeschränkte Maximum-Likelihood-Schätzung vorstellen, dass wiederholte Ziehungen aus derselben Datenverteilung stammen, wenn das wahre Modell Nullen bei mehreren Regressionskoeffizienten aufweist und die Abstimmungskonstante groß genug ist, werden in der CMLE immer die gleichen Komponenten auf Null gesetzt und die Nicht-Regressionskoeffizienten auf Null gesetzt. Nullparameter verteilen sich auf entsprechende Konfidenzintervalle. Aus bayesianischer Sicht ist dies gleichbedeutend mit einer positiven Wahrscheinlichkeit für solche Mengen. Meine Frage ist, wie das bei einer kontinuierlichen Verbreitung so sein kann.

— Grant Izmirlian

Die CLME-Lösung stimmt mit der MAP-Schätzung überein. Es gibt wirklich nichts mehr zu sagen.

— Sycorax sagt Reinstate Monica

Die CMLE-Lösung ist keine Probe aus dem posterioren Bereich.

— Brian Borchers

Es gibt keinen Widerspruch, weil der posterior keine Masse auf Sets mit geringerer Dimension legt.

— Xi'an

Wie alle obigen Kommentare nimmt die Bayes'sche Interpretation von LASSO nicht den erwarteten Wert der posterioren Verteilung an, was Sie tun würden, wenn Sie Purist wären. Wenn dies der Fall wäre, dann hätten Sie Recht, dass die Wahrscheinlichkeit sehr gering ist, dass der hintere Teil angesichts der Daten Null ist.

In Wirklichkeit nimmt die Bayes'sche Interpretation von LASSO den MAP-Schätzer (Maximum A Posteriori) des posterior. Es hört sich so an, als wären Sie vertraut, aber für alle, die es nicht sind, ist dies im Grunde genommen die Bayes'sche maximale Wahrscheinlichkeit, bei der Sie den Wert verwenden, der der maximalen Eintrittswahrscheinlichkeit (oder dem Modus) als Schätzer für die Parameter in LASSO entspricht. Da die Verteilung aus negativer Richtung exponentiell bis auf Null ansteigt und in positiver Richtung exponentiell abfällt, ist der Maximalwert für den Wert Ihres Seitenzahns wahrscheinlich 0, es sei denn, Ihre Daten weisen eindeutig auf einen anderen signifikanten Beta-Wert hin.

Um es kurz zu machen, Ihre Intuition scheint auf dem Mittelwert des Seitenzahns zu beruhen, aber die Bayes'sche Interpretation von LASSO basiert auf der Annahme des Modus des Seitenzahns.

— www3
quelle