LASSO und Grat aus der Bayes'schen Perspektive: Was ist mit den Stimmparametern?


17

Bestrafte Regressionsschätzer wie LASSO und Ridge sollen Bayes'schen Schätzern mit bestimmten Prioritäten entsprechen. Ich vermute (da ich nicht genug über Bayes'sche Statistiken weiß), dass für einen festen Abstimmungsparameter ein konkreter entsprechender Prior existiert.

Nun würde ein Frequentist den Abstimmungsparameter durch Kreuzvalidierung optimieren. Gibt es ein bayesianisches Äquivalent dazu und wird es überhaupt verwendet? Oder korrigiert der Bayes'sche Ansatz den Abstimmungsparameter effektiv, bevor die Daten angezeigt werden? (Ich denke, Letzteres würde die prädiktive Leistung beeinträchtigen.)


3
Ich stelle mir vor, dass eine vollständig bayesianische Herangehensweise mit einer vorgegebenen Priorität beginnen und diese nicht modifizieren würde, ja. Es gibt aber auch einen empirischen Ansatz, der über Hyperparameterwerte optimiert: Siehe z . B. stats.stackexchange.com/questions/24799 .
Amöbe sagt Reinstate Monica

Zusätzliche Frage (könnte Teil von Haupt-Q sein): Gibt es vor dem Regularisierungsparameter einige, die den Prozess der Kreuzvalidierung irgendwie ersetzen?
kjetil b halvorsen

1
Bayesianer können dem Abstimmungsparameter eine Priorität zuweisen, da er normalerweise einem Varianzparameter entspricht. Dies wird normalerweise getan, um einen Lebenslauf zu vermeiden, um voll und ganz bei Bayes zu bleiben. Alternativ können Sie den Regularisierungsparameter mit REML optimieren.
Kerl

2
PS: Beachten Sie meinen Kommentar für diejenigen, die auf Kopfgeld abzielen: Ich möchte eine explizite Antwort, die einen Prior anzeigt, der eine MAP-Schätzung hervorruft, die der häufigen Kreuzvalidierung entspricht.
statslearner2

1
@ statslearner2 Ich denke, es beantwortet Richards Frage sehr gut. Ihr Kopfgeld scheint sich auf einen engeren Aspekt (etwa einen Hyperprioren) zu konzentrieren als Richards Q.
Amöbe sagt Reinstate Monica

Antworten:


18

Bestrafte Regressionsschätzer wie LASSO und Ridge sollen Bayes'schen Schätzern mit bestimmten Prioritäten entsprechen.

Ja, das ist richtig. Wenn wir ein Optimierungsproblem haben, das die Maximierung der Log-Likelihood-Funktion plus eine Straffunktion für die Parameter beinhaltet, ist dies mathematisch äquivalent zur posterioren Maximierung, wobei die Straffunktion als Logarithmus eines früheren Kernels angenommen wird. Um dies zu sehen, nehmen wir an, wir haben eine Straffunktion , die einen Abstimmparameter . Die Zielfunktion in diesen Fällen kann wie folgt geschrieben werden:wλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

wobei wir das vorherige π(θ|λ)exp(w(θ|λ)) . Beachten Sie hierbei, dass der Optimierungsparameter in der vorherigen Verteilung als fester Hyperparameter behandelt wird. Wenn Sie eine klassische Optimierung mit einem festen Optimierungsparameter durchführen, entspricht dies einer Bayes-Optimierung mit einem festen Hyperparameter. Für die LASSO- und Ridge-Regression sind die Straffunktionen und die entsprechenden Prioritätsäquivalente:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

Das erstere Verfahren bestraft die Regressionskoeffizienten gemäß ihrer absoluten Größe, was dem Auferlegen eines Laplace-Priorums bei Null entspricht. Die letztere Methode bestraft die Regressionskoeffizienten gemäß ihrer quadratischen Größe, was dem Auferlegen eines normalen Prioritätswerts bei Null entspricht.

Nun würde ein Frequentist den Abstimmungsparameter durch Kreuzvalidierung optimieren. Gibt es ein bayesianisches Äquivalent dazu und wird es überhaupt verwendet?

Solange die frequentistische Methode als Optimierungsproblem gestellt werden kann (anstatt etwa einen Hypothesentest oder ähnliches zu beinhalten), wird es eine Bayes'sche Analogie geben, die ein äquivalentes Prior verwendet. Ebenso wie die Frequentisten den Abstimmungsparameter λ als unbekannt behandeln und dies aus den Daten abschätzen, kann der Bayes'sche den Hyperparameter λ ähnliche Weise als unbekannt behandeln. In einer vollständigen Bayes'schen Analyse würde dies bedeuten, dem Hyperparameter eine eigene Priorität zuzuweisen und das hintere Maximum unter dieser Priorität zu finden, was der Maximierung der folgenden Zielfunktion analog wäre:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

Diese Methode wird in der Bayes'schen Analyse in der Tat verwendet, wenn der Analytiker einen bestimmten Hyperparameter für seine Prioritäten nicht bequem auswählen kann und versucht, die Prioritäten weiter zu verbreiten, indem sie als unbekannt behandelt und verteilt werden. (Beachten Sie, dass dies nur eine implizite Möglichkeit ist, vor dem interessierenden Parameter θ eine diffusere Angabe zu machen .)

(Kommentar von statslearner2 unten) Ich suche nach numerisch äquivalenten MAP-Schätzungen. Zum Beispiel gibt es für einen Ridge mit fester Strafe einen Gaußschen Prior, der mir die MAP-Schätzung genau gleich der Ridge-Schätzung gibt. Was ist nun für den k-fachen CV-Kamm der Hyperprior, der mir die MAP-Schätzung geben würde, die der CV-Kamm-Schätzung ähnlich ist?

Bevor auf die K fache Kreuzvalidierung eingegangen wird, ist zunächst anzumerken, dass das Maximum a posteriori (MAP) -Verfahren mathematisch einfach eine Optimierung einer Funktion des Parameters θ und der Daten x . Wenn Sie bereit sind, unzulässige Prioritäten zuzulassen, kapselt der Gültigkeitsbereich alle Optimierungsprobleme, die eine Funktion dieser Variablen betreffen. Somit weist jede frequentistische Methode, die als einzelnes Optimierungsproblem dieser Art gerahmt werden kann, eine MAP-Analogie auf, und jede frequentistische Methode, die nicht als einzelne Optimierung dieser Art gerahmt werden kann, weist keine MAP-Analogie auf.

In der obigen Modellform, die eine Straffunktion mit einem Abstimmungsparameter beinhaltet, wird üblicherweise eine K fache Kreuzvalidierung verwendet, um den Abstimmungsparameter λ abzuschätzen . Für diese Methode Sie den Datenvektor partitionieren x in K Teilvektoren x1,...,xK . Für jede der Untervektor k=1,...,K Sie passen das Modell mit den "Trainings" -Daten xk und messen dann die Anpassung des Modells mit den "Test" -Daten xk. In jeder Anpassung erhalten Sie einen Schätzer für die Modellparameter, der Ihnen Vorhersagen der Testdaten liefert, die dann mit den tatsächlichen Testdaten verglichen werden können, um ein Maß für den "Verlust" zu erhalten:

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

Die Verlustmaße für jede der K "Falten" können dann aggregiert werden, um ein Gesamtverlustmaß für die Kreuzvalidierung zu erhalten:

L(x,λ)=kLk(x^k,xk|xk,λ)

Man schätzt dann den Abstimmungsparameter durch Minimieren des Gesamtverlustmaßes:

λ^λ^(x)arg min λL(x,λ).

θλθ

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

δ>0δKδ=δ

From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

where Lx(θ,λ)exp(x(θ)δL(x,λ)) and π(θ,λ)exp(w(θ|λ)), with a fixed (and very large) hyper-parameter δ.


This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.


2
Ok +1 already, but for the bounty I'm looking for these more precise answers.
statslearner2

4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy

3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy

1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy

2
@Ben (ctd) My problem is that I know little about Bayes. Once it gets technical, I may easily lose the perspective. So I wonder whether this complicated analogy (the last formula) is something that is just a technical possibility or rather something that people routinely use. In other words, I am interested in whether the idea behind cross validation (here in the context of penalized estimation) is resounding in the Bayesian world, whether its advantages are utilized there. Perhaps this could be a separate question, but a short description will suffice for this particular case.
Richard Hardy

6

Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has a χ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.

A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.


Thank you for your answer! The linked paper is quite readable, which is nice.
Richard Hardy

2
This does not answer the question, can you elaborate to explain how does the hyper-prior relate to k-fold CV?
statslearner2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.