Klare Erklärung für die „numerische Stabilität der Matrixinversion“ bei der Gratregression und ihre Rolle bei der Reduzierung der Überanpassung

Ich verstehe, dass wir Regularisierung in einem Regressionsproblem der kleinsten Quadrate als anwenden können

w^{*} = \underset{w}{argmin} [(y - X w)^{T} (y - X w) + λ ‖ w ‖^{2}]

$\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]$

und dass dieses Problem eine geschlossene Lösung hat als:

\hat{w} = (X^{T} X + λ I)^{- 1} X^{T} y .

$\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.$

Wir sehen, dass in der 2. Gleichung die Regularisierung einfach $\lambda$ zur Diagonale von addiert $\boldsymbol{X}^T\boldsymbol{X}$ , um die numerische Stabilität der Matrixinversion zu verbessern.

Mein derzeitiges "grobes" Verständnis der numerischen Stabilität ist, dass wenn eine Funktion "numerisch stabiler" wird, ihre Ausgabe weniger stark durch das Rauschen in ihren Eingaben beeinflusst wird. Ich habe Schwierigkeiten, dieses Konzept der verbesserten numerischen Stabilität mit dem Gesamtbild in Verbindung zu bringen, wie es das Problem der Überanpassung vermeidet / verringert.

Ich habe versucht, mir Wikipedia und einige andere Universitätswebsites anzusehen, aber sie erklären nicht genau, warum dies so ist.

— Anfänger
quelle

Ridge Regression kommt in den Sinn. Link

— EngrStudent

Möglicherweise finden Sie einen Wert in der (meist beschreibenden / intuitiven und nicht algebraischen) Diskussion unter Warum wird die Kammschätzung besser als OLS, wenn der Diagonale eine Konstante hinzugefügt wird?

— Glen_b -State Monica

Antworten:

Im linearen Modell ist der Schätzer der kleinsten Quadrate ein unverzerrter Schätzer für den Parameter , wobei unkorrelierte Fehler mit dem Mittelwert Null und mit vollem Spaltenrang angenommen werden . Dieser Schätzer kann jedoch eine hohe Varianz aufweisen. Zum Beispiel, wenn zwei der Spalten von stark korreliert sind. $Y=X\beta + \epsilon$ $X$ $(X^TX)^{-1}X^TY$ $\beta$ $X$

Der Strafparameter macht einem voreingenommenen Schätzer von , verringert jedoch seine Varianz. Außerdem ist die hintere Erwartung von in einer Bayes'schen Regression mit einem vor . In diesem Sinne nehmen wir einige Informationen in die Analyse auf, die besagen, dass die Komponenten von nicht zu weit von Null entfernt sein sollten. Dies führt uns wiederum zu einer voreingenommenen Punktschätzung von , verringert jedoch die Varianz der Schätzung. $\lambda$ $\hat{w}$ $\beta$ $\hat{w}$ $\beta$ $N(0,\frac{1}{\lambda}I)$ $\beta$ $\beta$ $\beta$

In einer Einstellung, in der hochdimensional ist, beispielsweise , stimmen die kleinsten Quadrate fast perfekt mit den Daten überein. Obwohl diese Schätzung unvoreingenommen ist, reagiert sie sehr empfindlich auf Schwankungen in den Daten, da es in solch hohen Dimensionen viele Punkte mit hoher Hebelwirkung geben wird. In solchen Situationen kann das Vorzeichen einiger Komponenten von durch eine einzelne Beobachtung bestimmt werden. Der Strafzeitraum hat den Effekt, dass diese Schätzungen gegen Null geschrumpft werden, was die MSE des Schätzers durch Verringern der Varianz verringern kann. $X$ $N \approx p$ $\hat{\beta}$

Bearbeiten: In meiner ersten Antwort habe ich einen Link zu einem relevanten Artikel bereitgestellt und ihn in meiner Eile entfernt. Hier ist es: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

— HStamper
quelle

In seiner jetzigen Form ist dies eher ein Kommentar; Glaubst du, du könntest daraus eine inhaltliche Antwort machen?

— Silberfischchen

Der Boden von p. 5 rechts / oben auf p. 6 links in Bezug auf Abbildung 3 enthält die Schlüsseldiskussion für die in diesem Beitrag gestellte Frage.

— Mark L. Stone

Das ist alles richtig, aber ich bin nicht sicher, ob es die Frage des OP beantwortet.

— Amöbe

Amöbe, siehe meinen Kommentar oben, der sich auf den Link bezieht, der später aus Eric Mittmans Antwort jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf herausgeschnitten wurde .

— Mark L. Stone

Numerische Stabilität und Überanpassung hängen in gewissem Sinne zusammen, sind jedoch unterschiedlich.

Das klassische OLS-Problem:

Betrachten Sie das klassische Problem der kleinsten Quadrate:

minimize (over b) (y - X b)^{T} (y - X b)

$\operatorname*{minimize}(\text{over $\mathbf{b}$}) \quad(\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b})$

Die Lösung ist der Klassiker . Eine Idee ist, dass nach dem Gesetz der großen Zahlen: $\hat{\mathbf{b}} = (X'X)^{-1}(X'\mathbf{y})$

lim_{n \to \infty} \frac{1}{n} X^{'} X \to E [x x^{'}] lim_{n \to \infty} \frac{1}{n} X^{'} y \to E [x y]

$\lim_{n \rightarrow \infty} \frac{1}{n} X'X \rightarrow \mathrm{E}[\mathbf{x}\mathbf{x}'] \quad \quad \quad \lim_{n \rightarrow \infty} \frac{1}{n} X'\mathbf{y} \rightarrow \mathrm{E}[\mathbf{x}y]$

Daher konvergiert die OLS-Schätzung auch zu . (In linearen Algebra-Begriffen ist dies die lineare Projektion der Zufallsvariablen auf die lineare Spanne der Zufallsvariablen .) $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']^{-1}\mathrm{E}[\mathbf{x}y]$ $y$ $x_1, x_2, \ldots, x_k$

Probleme?

Was kann mechanisch schief gehen? Was sind mögliche Probleme?

Bei kleinen Stichproben sind unsere Stichprobenschätzungen für und möglicherweise schlecht. $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$
Wenn Spalten von kollinear sind (entweder aufgrund der inhärenten Kollinearität oder der geringen Stichprobengröße), hat das Problem ein Kontinuum von Lösungen! Die Lösung ist möglicherweise nicht eindeutig.
- Dies tritt auf, wenn Rangmangel aufweist. $\mathrm{E}[\mathbf{x}\mathbf{x}']$
- Dies tritt auch auf, wenn aufgrund der geringen Stichprobengröße im Verhältnis zur Anzahl der Regressorprobleme einen aufweist. $X'X$

Problem (1) kann zu einer Überanpassung führen, da die Schätzung Muster in der Stichprobe widerspiegelt, die in der zugrunde liegenden Population nicht vorhanden sind. Die Schätzung kann Muster in und widerspiegeln, die in und $\hat{\mathbf{b}}$ $\frac{1}{n}X'X$ $\frac{1}{n}X'\mathbf{y}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$

Problem (2) bedeutet, dass eine Lösung nicht eindeutig ist. Stellen Sie sich vor, wir versuchen, den Preis einzelner Schuhe zu schätzen, aber Paar Schuhe werden immer zusammen verkauft. Dies ist ein schlecht gestelltes Problem, aber sagen wir, wir machen es trotzdem. Wir glauben vielleicht, dass der Preis für den linken Schuh plus den Preis für den rechten Schuh 50 beträgt, aber wie können wir individuelle Preise finden? Ist die Einstellung der Preise den linken Schuh und des Preises rechten Schuh ? Wie können wir aus allen Möglichkeiten wählen? $p_l = 45$ $p_r = 5$

Einführung der Strafe: $L_2$

Betrachten Sie nun:

minimize (over b) (y - X b)^{T} (y - X b) + λ ‖ b ‖^{2}

$\operatorname*{minimize}(\text{over }\mathbf{b})\quad (\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b}) + \lambda\|\boldsymbol{b}\|^2$

Dies kann uns bei beiden Arten von Problemen helfen. Die Strafe drückt unsere Schätzung von gegen Null. Dies funktioniert effektiv als Bayesian, bevor die Verteilung über die Koeffizientenwerte um zentriert ist . Das hilft bei der Überanpassung. Unsere Schätzung wird sowohl die Daten als auch unsere anfänglichen Überzeugungen widerspiegeln, dass nahe Null ist. $L_2$ $\mathbf{b}$ $\mathbf{0}$ $\mathbf{b}$

$L_2$ Regularisierung auch uns immer, um eine einzigartige Lösung für schlecht gestellte Probleme zu finden. Wenn wir wissen, dass der Preis für linke und rechte Schuhe insgesamt beträgt , besteht die Lösung, die auch die Norm minimiert , darin, zu wählen . $\$50$ $L_2$ $p_l = p_r = 25$

Ist das Magie? Nein. Regularisierung ist nicht dasselbe wie das Hinzufügen von Daten, mit denen wir die Frage tatsächlich beantworten können. Regularisierung nimmt in gewissem Sinne die Ansicht an, dass Sie bei fehlenden Daten Schätzungen wählen sollten, die näher an . $L_2$ $0$

— Matthew Gunn
quelle

Klare Erklärung für die „numerische Stabilität der Matrixinversion“ bei der Gratregression und ihre Rolle bei der Reduzierung der Überanpassung

Das klassische OLS-Problem:

Probleme?

Einführung der Strafe:L2L2L_2

Einführung der Strafe: $L_2$