Es gibt keine Garantie dafür, dass kleinere Gewichte tatsächlich besser sind. Die Lasso- und Ridge-Regression funktioniert, indem der Lösung Vorkenntnisse / Annahmen / Einschränkungen auferlegt werden. Dieser Ansatz funktioniert gut, wenn die vorherigen / Annahmen / Einschränkungen für die tatsächliche Verteilung, die die Daten generiert hat, gut geeignet sind und ansonsten möglicherweise nicht gut funktionieren. In Bezug auf Einfachheit / Komplexität sind nicht die einzelnen Modelle einfacher oder komplexer. Vielmehr ist es die Familie von Modellen unter Berücksichtigung.
Aus geometrischer Sicht zwingen die Lasso- und Gratregression die Gewichte zu Einschränkungen. Zum Beispiel die übliche Strafe / Lagrange-Form der Gratregression:
minβ∥y−Xβ∥22+λ∥β∥22
kann in der entsprechenden Einschränkungsform neu geschrieben werden:
minβ∥y−Xβ∥22s.t. ∥β∥22≤c
Dies macht deutlich, dass die Gratregression die Gewichte auf eine Hypersphäre beschränkt, deren Radius durch den Regularisierungsparameter bestimmt wird. In ähnlicher Weise beschränkt Lasso die Gewichte so, dass sie innerhalb eines Polytops liegen, dessen Größe durch den Regularisierungsparameter bestimmt wird. Diese Einschränkungen bedeuten, dass der größte Teil des ursprünglichen Parameterraums nicht zulässig ist und wir nach den optimalen Gewichten in einem viel kleineren Unterraum suchen. Dieser kleinere Unterraum kann als weniger "komplex" angesehen werden als der gesamte Raum.
Aus Bayes'scher Sicht kann man über die posteriore Verteilung über alle möglichen Gewichtswahlen nachdenken. Sowohl die Lasso- als auch die Ridge-Regression entsprechen der MAP-Schätzung, nachdem ein Prior auf die Gewichte gesetzt wurde (Lasso verwendet einen Laplace-Prior und Ridge-Regression verwendet einen Gauß-Prior). Ein engerer posteriorer Wert entspricht einer größeren Einschränkung und einer geringeren Komplexität, da ein kleinerer Satz von Parametern eine hohe posteriore Dichte aufweist. Zum Beispiel ergibt das Multiplizieren der Wahrscheinlichkeitsfunktion mit einem engen Gaußschen Prior (was einer großen Gratstrafe entspricht) einen engeren hinteren Teil.
Einer der Hauptgründe für die Auferlegung von Einschränkungen / Prioritäten ist, dass die Auswahl des optimalen Modells aus einer eingeschränkteren Familie weniger wahrscheinlich überanpasst als die Auswahl aus einer weniger eingeschränkten Familie. Dies liegt daran, dass die weniger eingeschränkte Familie mehr Möglichkeiten zur Anpassung der Daten bietet und es zunehmend wahrscheinlicher ist, dass eine von ihnen zufällige Schwankungen im Trainingssatz berücksichtigen kann. Eine formellere Behandlung finden Sie im Kompromiss zwischen Bias und Varianz . Dies bedeutet nicht unbedingt, dass die Auswahl eines Modells aus einer eingeschränkteren Familie gut funktioniert. Um eine gute Leistung zu erzielen, muss die eingeschränkte Familie tatsächlich gute Modelle enthalten. Dies bedeutet, dass wir einen Prior / eine Einschränkung auswählen müssen, die / die gut auf das jeweilige Problem abgestimmt ist.