Numerische Stabilität und Überanpassung hängen in gewissem Sinne zusammen, sind jedoch unterschiedlich.
Das klassische OLS-Problem:
Betrachten Sie das klassische Problem der kleinsten Quadrate:
minimize(over b)(y−Xb)T(y−Xb)
Die Lösung ist der Klassiker . Eine Idee ist, dass nach dem Gesetz der großen Zahlen:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Daher konvergiert die OLS-Schätzung auch zu . (In linearen Algebra-Begriffen ist dies die lineare Projektion der Zufallsvariablen auf die lineare Spanne der Zufallsvariablen .)b^E[xx′]−1E[xy]yx1,x2,…,xk
Probleme?
Was kann mechanisch schief gehen? Was sind mögliche Probleme?
- Bei kleinen Stichproben sind unsere Stichprobenschätzungen für und möglicherweise schlecht.E[xx′]E[xy]
- Wenn Spalten von kollinear sind (entweder aufgrund der inhärenten Kollinearität oder der geringen Stichprobengröße), hat das Problem ein Kontinuum von Lösungen! Die Lösung ist möglicherweise nicht eindeutig.
X
- Dies tritt auf, wenn Rangmangel aufweist.E[xx′]
- Dies tritt auch auf, wenn aufgrund der geringen Stichprobengröße im Verhältnis zur Anzahl der Regressorprobleme einen aufweist.X′X
Problem (1) kann zu einer Überanpassung führen, da die Schätzung Muster in der Stichprobe widerspiegelt, die in der zugrunde liegenden Population nicht vorhanden sind. Die Schätzung kann Muster in und widerspiegeln, die in undb^1nX′X1nX′yE[xx′]E[xy]
Problem (2) bedeutet, dass eine Lösung nicht eindeutig ist. Stellen Sie sich vor, wir versuchen, den Preis einzelner Schuhe zu schätzen, aber Paar Schuhe werden immer zusammen verkauft. Dies ist ein schlecht gestelltes Problem, aber sagen wir, wir machen es trotzdem. Wir glauben vielleicht, dass der Preis für den linken Schuh plus den Preis für den rechten Schuh 50 US-Dollar beträgt, aber wie können wir individuelle Preise finden? Ist die Einstellung der Preise den linken Schuh und des Preises rechten Schuh ? Wie können wir aus allen Möglichkeiten wählen?pl=45pr=5
Einführung der Strafe:L2
Betrachten Sie nun:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Dies kann uns bei beiden Arten von Problemen helfen. Die Strafe drückt unsere Schätzung von gegen Null. Dies funktioniert effektiv als Bayesian, bevor die Verteilung über die Koeffizientenwerte um zentriert ist . Das hilft bei der Überanpassung. Unsere Schätzung wird sowohl die Daten als auch unsere anfänglichen Überzeugungen widerspiegeln, dass nahe Null ist.L2b0b
L2 Regularisierung auch uns immer, um eine einzigartige Lösung für schlecht gestellte Probleme zu finden. Wenn wir wissen, dass der Preis für linke und rechte Schuhe insgesamt beträgt , besteht die Lösung, die auch die Norm minimiert , darin, zu wählen .$50L2pl=pr=25
Ist das Magie? Nein. Regularisierung ist nicht dasselbe wie das Hinzufügen von Daten, mit denen wir die Frage tatsächlich beantworten können. Regularisierung nimmt in gewissem Sinne die Ansicht an, dass Sie bei fehlenden Daten Schätzungen wählen sollten, die näher an .L20