Die L2-Regularisierung entspricht dem Gaußschen Prior

56

Ich lese dies weiter und ich kann es intuitiv sehen, aber wie geht man von der L2-Regularisierung zu der Aussage, dass dies analytisch ein Gaußscher Prior ist? Gleiches gilt für die Aussage, dass L1 einem Laplace-Prior entspricht.

Weitere Hinweise wären toll.

regression references regularization

— Anonym
quelle

54

Stellen wir uns vor, Sie möchten einen Parameter aus einigen beobachteten Eingabe-Ausgabe-Paaren . Nehmen wir an, dass die Ausgaben über in einem linearen Verhältnis zu den Eingaben stehen und dass die Daten durch Rauschen verfälscht werden : $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

Dabei ist das Gaußsche Rauschen mit dem Mittelwert und der Varianz . Daraus ergibt sich eine Gaußsche Wahrscheinlichkeit: $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

Lassen Sie uns den Parameter regulieren, indem wir den Gaußschen Prior auferlegen wobei ein streng positiver Skalar ist. Wenn wir also die Wahrscheinlichkeit und die Priorität kombinieren, haben wir einfach: $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

Nehmen wir den Logarithmus des obigen Ausdrucks. Wir lassen einige Konstanten fallen:

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

Wenn wir den obigen Ausdruck in Bezug auf ; maximieren , erhalten wir die sogenannte maximale a-posteriori-Schätzung für ; oder kurz MAP-Schätzung. In diesem Ausdruck wird deutlich, warum der Gaußsche Prior als L2-Regularisierungsterm interpretiert werden kann. $\beta$ $\beta$

In ähnlicher Weise kann die Beziehung zwischen der L1-Norm und dem Laplace-Prior auf dieselbe Weise verstanden werden. Nehmen Sie anstelle eines Gaußschen Priores einen Laplace-Prior, kombinieren Sie ihn mit Ihrer Wahrscheinlichkeit und nehmen Sie den Logarithmus.

Eine gute Referenz (vielleicht etwas fortgeschritten), die beide Themen ausführlich beschreibt, ist das Paper "Adaptive Sparseness for Supervised Learning", das derzeit online nicht leicht zu finden zu sein scheint. Schauen Sie sich alternativ "Adaptive Sparseness using Jeffreys Prior" an . Eine weitere gute Referenz ist "Über die Bayes'sche Klassifikation mit Laplace-Priors" .

— ngiann
quelle

1

D dimensionKönnen betaund sigmahaben Sie in einem linearen Regressionsfall explizite Lösungen? Ich lese PRML und finde Gleichung (1.67) auf Seite 30 und habe keine Ahnung, wie ich sie lösen soll. Höchstwahrscheinlich lösen wir betaund setzen dann sigmaden Gradienten auf Null. Im regularisierten kleinsten Quadrat lambdalösen wir betadirekt , da einige der Reqularisierungsparameter bekannt sind . Aber wenn wir direkt den MAP lösen, was ist die Reihenfolge der Lösung beta, sigma? Können sie eine explizite Lösung haben oder müssen wir einen iterativen Prozess verwenden?

— Stackunderflow

Vermissen Sie ein "Quadrat" auf dem in der letzten Gleichung, dh ?

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

— brian.keng

@AdamO Begrenzt die Anzahl der Werte, die die Koeffizienten annehmen können. Wenn der Prioritätswert beispielsweise zwischen 1 und 10 liegt, besteht die Wahrscheinlichkeit, dass der Koeffizient einen anderen Wert annimmt, dh [-inf bis 1] und [10, + inf].

— Imsrgadich

1

In diesem Fall ist bekannt. Funktioniert es, wenn unbekannt ist? Für die Bayes'sche lineare Regression könnte ein inverses Gamma-Prior verwendet werden, um ein Konjugat vor der Varianz zu bilden. Aber ich bin nicht sicher, ob die Algebra den gleichen Ausdruck haben würde.

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

— AdamO

11

Für ein lineares Modell mit multivariater Normalprior- und multivariater Normalwahrscheinlichkeit erhalten Sie eine multivariate Normal-Posterior-Verteilung, bei der der Mittelwert des Posterior- (und Maximum-Posteriori-Modells) genau dem entspricht, was Sie mit Tikhonov regularisiert erhalten würden ( regularisierte) kleinste Quadrate mit einem geeigneten Regularisierungsparameter. $L_{2}$

Es ist zu beachten, dass ein grundlegenderer Unterschied darin besteht, dass der Bayesianische Posterior eine Wahrscheinlichkeitsverteilung ist, während die Tikhonov-Lösung der kleinsten Quadrate eine spezifische Punktschätzung ist.

Dies wird in vielen Lehrbüchern über Bayes'sche Methoden für inverse Probleme diskutiert. Siehe zum Beispiel:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Wenn Sie eine Laplace-Prior- und eine multivariate Normalwahrscheinlichkeit haben, tritt das Maximum der posterioren Verteilung an einem Punkt auf, den Sie durch Lösen eines regulierten -Problems mit den kleinsten Quadraten erhalten könnten . $L_{1}$

— Brian Borchers
quelle

9

Beachten Sie zunächst, dass der Median die L1-Norm minimiert (siehe hier oder hier, um mehr über L1 und L2 zu erfahren).

median (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{1}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

während der Mittelwert L2 minimiert

mean (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

Denken Sie jetzt daran, dass der Parameter der Normalverteilungen mit dem Mittelwert der Stichprobe geschätzt werden kann , während der MLE-Schätzer für den Parameter der Laplace-Verteilung der Median ist. Die Verwendung der Normalverteilung entspricht also der L2-Normoptimierung und die Verwendung der Laplace-Verteilung der Verwendung der L1-Optimierung. In der Praxis können Sie sich das so vorstellen, dass der Median für Ausreißer weniger anfällig ist als für Mittelwerte. Wenn Sie die Laplace-Verteilung mit dickerem Schwanz als früher verwenden, ist Ihr Modell weniger anfällig für Ausreißer als für Normalverteilung. $\mu$ $\mu$

Hurley, WJ (2009) Ein induktiver Ansatz zur Berechnung des MLE für die doppelte Exponentialverteilung . Zeitschrift für moderne angewandte statistische Methoden: 8 (2), Artikel 25.

— Tim
quelle

Vielleicht ist dies nicht die mathematisch strengste Antwort, die hier gegeben wird, aber es ist definitiv die einfachste und intuitivste, die ein Anfänger in der L1 / L2-Regularisierung erfassen kann.

— SQLServerSteve

8

Für ein Regressionsproblem mit Variablen (ohne Intercept) machen Sie OLS als $k$

min_{β} (y - X β)^{'} (y - X β)

$\min_{\beta} (y - X \beta)' (y - X \beta)$

In einer regulierten Regression mit Strafe tun Sie dies $L^p$

min_{β} (y - X β)^{'} (y - X β) + λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

Das können wir gleichwertig machen (Vorzeichenwechsel beachten)

max_{β} - (y - X β)^{'} (y - X β) - λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

Dies steht in direktem Zusammenhang mit dem Bayes'schen Prinzip von

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

oder gleichwertig (unter Regularitätsbedingungen)

l o g (p o s t e r i o r) \sim l o g (l i k e l i h o o d) + l o g (p e n a l t y)

$log(posterior) \sim log(likelihood) + log(penalty)$

Nun ist es nicht schwer zu erkennen, welche exponentielle Familienverteilung zu welcher Strafart gehört.

— Georg M. Goerg
quelle

3

Um die Äquivalenz genauer zu formulieren:

Das Optimieren der Modellgewichte zur Minimierung einer quadratischen Fehlerverlustfunktion mit L2-Regularisierung entspricht dem Ermitteln der Gewichte, die am wahrscheinlichsten unter einer nach der Bayes-Regel bewerteten posterioren Verteilung liegen, wobei ein unabhängiges Gauß-Gewicht mit dem Mittelwert Null vorausgeht

Beweis:

Die Verlustfunktion wie oben beschrieben wäre gegeben durch

L = \underset{O r i g i n a l l o s s f u n c t i o n}{\underset{⏟}{[\sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2}]}} + \underset{L_{2} l o s s}{\underset{⏟}{λ \sum_{i = 1}^{K} w_{i}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

Beachten Sie, dass die Verteilung für einen multivariaten Gaußschen Wert

N (x; μ, Σ) = \frac{1}{(2 π)^{D / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

Mit der Bayes-Regel haben wir das

\begin{aligned} p (w | D) & = \frac{p (D | w) p (w)}{p (D)} \\ \propto p (D | w) p (w) \\ \propto [\prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] N (w; 0, σ_{w}^{2} I) \\ \propto \prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2}) \prod_{i = 1}^{K} N (w_{i}; 0, σ_{w}^{2}) \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

Wo wir in der Lage sind, den mehrdimensionalen Guassian in ein Produkt aufzuteilen, weil die Kovarianz ein Vielfaches der Identitätsmatrix ist.

Nimm die negative Log-Wahrscheinlichkeit

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

Wir können natürlich die Konstante fallen lassen und mit jedem Betrag multiplizieren, ohne die Verlustfunktion grundlegend zu beeinflussen. (Konstante bewirkt nichts, Multiplikation skaliert effektiv die Lernrate. Beeinflusst die Position der Minima nicht.) Wir können also sehen, dass die negative logarithmische Wahrscheinlichkeit der posterioren Verteilung eine äquivalente Verlustfunktion zur L2-Funktion des regulierten quadratischen Fehlerverlusts ist.

Diese Äquivalenz ist allgemein und gilt für jede parametrisierte Funktion von Gewichten - nicht nur für die lineare Regression, wie oben angedeutet.

— nickelnine37
quelle

1

Es gibt zwei Merkmale der Bayes'schen Modellierung, die hervorgehoben werden müssen, wenn die Äquivalenz bestimmter bestrafter Maximalwahrscheinlichkeitsschätzungen und der Bayes'schen Verfahren erörtert wird.

Im Bayes'schen Rahmen wird der Prior auf der Grundlage der Besonderheiten des Problems ausgewählt und ist nicht durch rechnerische Zweckmäßigkeit motiviert. Aus diesem Grund verwenden Bayesianer eine Reihe von Prioren, einschließlich des inzwischen beliebten Hufeisens, das bei Problemen mit spärlichen Prädiktoren eingesetzt wird, und müssen sich nicht so sehr auf Prioren verlassen, die den Strafen L1 oder L2 entsprechen.
Mit einem vollständigen Bayes'schen Ansatz haben Sie Zugriff auf alle Inferenzverfahren, wenn Sie fertig sind. Beispielsweise können Sie Beweise für große Regressionskoeffizienten quantifizieren und glaubwürdige Intervalle für Regressionskoeffizienten und prognostizierte Gesamtwerte erhalten. Wenn Sie sich für eine Bestrafung entscheiden, verlieren Sie im Rahmen der Frequentisten die gesamte Inferenzmaschine.

— Frank Harrell
quelle