Bestrafte Regressionsschätzer wie LASSO und Ridge sollen Bayes'schen Schätzern mit bestimmten Prioritäten entsprechen.
Ja, das ist richtig. Wenn wir ein Optimierungsproblem haben, das die Maximierung der Log-Likelihood-Funktion plus eine Straffunktion für die Parameter beinhaltet, ist dies mathematisch äquivalent zur posterioren Maximierung, wobei die Straffunktion als Logarithmus eines früheren Kernels angenommen wird. Um dies zu sehen, nehmen wir an, wir haben eine Straffunktion , die einen Abstimmparameter . Die Zielfunktion in diesen Fällen kann wie folgt geschrieben werden:†wλ
Hx( θ | λ )= ℓx( θ ) - w ( θ | λ )= ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
wobei wir das vorherige π(θ|λ)∝exp(−w(θ|λ)) . Beachten Sie hierbei, dass der Optimierungsparameter in der vorherigen Verteilung als fester Hyperparameter behandelt wird. Wenn Sie eine klassische Optimierung mit einem festen Optimierungsparameter durchführen, entspricht dies einer Bayes-Optimierung mit einem festen Hyperparameter. Für die LASSO- und Ridge-Regression sind die Straffunktionen und die entsprechenden Prioritätsäquivalente:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
Das erstere Verfahren bestraft die Regressionskoeffizienten gemäß ihrer absoluten Größe, was dem Auferlegen eines Laplace-Priorums bei Null entspricht. Die letztere Methode bestraft die Regressionskoeffizienten gemäß ihrer quadratischen Größe, was dem Auferlegen eines normalen Prioritätswerts bei Null entspricht.
Nun würde ein Frequentist den Abstimmungsparameter durch Kreuzvalidierung optimieren. Gibt es ein bayesianisches Äquivalent dazu und wird es überhaupt verwendet?
Solange die frequentistische Methode als Optimierungsproblem gestellt werden kann (anstatt etwa einen Hypothesentest oder ähnliches zu beinhalten), wird es eine Bayes'sche Analogie geben, die ein äquivalentes Prior verwendet. Ebenso wie die Frequentisten den Abstimmungsparameter λ als unbekannt behandeln und dies aus den Daten abschätzen, kann der Bayes'sche den Hyperparameter λ ähnliche Weise als unbekannt behandeln. In einer vollständigen Bayes'schen Analyse würde dies bedeuten, dem Hyperparameter eine eigene Priorität zuzuweisen und das hintere Maximum unter dieser Priorität zu finden, was der Maximierung der folgenden Zielfunktion analog wäre:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
Diese Methode wird in der Bayes'schen Analyse in der Tat verwendet, wenn der Analytiker einen bestimmten Hyperparameter für seine Prioritäten nicht bequem auswählen kann und versucht, die Prioritäten weiter zu verbreiten, indem sie als unbekannt behandelt und verteilt werden. (Beachten Sie, dass dies nur eine implizite Möglichkeit ist, vor dem interessierenden Parameter θ eine diffusere Angabe zu machen .)
(Kommentar von statslearner2 unten) Ich suche nach numerisch äquivalenten MAP-Schätzungen. Zum Beispiel gibt es für einen Ridge mit fester Strafe einen Gaußschen Prior, der mir die MAP-Schätzung genau gleich der Ridge-Schätzung gibt. Was ist nun für den k-fachen CV-Kamm der Hyperprior, der mir die MAP-Schätzung geben würde, die der CV-Kamm-Schätzung ähnlich ist?
Bevor auf die K fache Kreuzvalidierung eingegangen wird, ist zunächst anzumerken, dass das Maximum a posteriori (MAP) -Verfahren mathematisch einfach eine Optimierung einer Funktion des Parameters θ und der Daten x . Wenn Sie bereit sind, unzulässige Prioritäten zuzulassen, kapselt der Gültigkeitsbereich alle Optimierungsprobleme, die eine Funktion dieser Variablen betreffen. Somit weist jede frequentistische Methode, die als einzelnes Optimierungsproblem dieser Art gerahmt werden kann, eine MAP-Analogie auf, und jede frequentistische Methode, die nicht als einzelne Optimierung dieser Art gerahmt werden kann, weist keine MAP-Analogie auf.
In der obigen Modellform, die eine Straffunktion mit einem Abstimmungsparameter beinhaltet, wird üblicherweise eine K fache Kreuzvalidierung verwendet, um den Abstimmungsparameter λ abzuschätzen . Für diese Methode Sie den Datenvektor partitionieren x in K Teilvektoren x1,...,xK . Für jede der Untervektor k=1,...,K Sie passen das Modell mit den "Trainings" -Daten x−k und messen dann die Anpassung des Modells mit den "Test" -Daten xk. In jeder Anpassung erhalten Sie einen Schätzer für die Modellparameter, der Ihnen Vorhersagen der Testdaten liefert, die dann mit den tatsächlichen Testdaten verglichen werden können, um ein Maß für den "Verlust" zu erhalten:
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
Die Verlustmaße für jede der K "Falten" können dann aggregiert werden, um ein Gesamtverlustmaß für die Kreuzvalidierung zu erhalten:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
Man schätzt dann den Abstimmungsparameter durch Minimieren des Gesamtverlustmaßes:
λ^≡λ^(x)≡arg min λL(x,λ).
θλθ
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
δ>0δ→∞Kδ=∞δ
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.