Antworten:
Es reicht aus, die Verlustfunktion durch Hinzufügen der Strafe zu ändern. In Matrixbegriffen wird die anfängliche quadratische Verlustfunktion Die Herleitung bezüglich führt zu der normalen Gleichung die zum Ridge-Schätzer führt.
Bauen wir auf dem, was wir wissen : Immer wenn die Modellmatrix , ist die Antwort -vector und der Parameter -vector ist , die ZielfunktionX n y p β
(das ist die Summe der Quadrate der Residuen) wird minimiert, wenn die Normalgleichungen löst
Die Ridge-Regression fügt der Zielfunktion einen weiteren Begriff hinzu (normalerweise nachdem alle Variablen standardisiert wurden, um sie auf eine gemeinsame Basis zu stellen) und fordert zum Minimieren auf
für eine nicht negative Konstante . Es ist die Summe der Quadrate der Residuen plus ein Vielfaches der Summe der Quadrate der Koeffizienten selbst (was deutlich macht, dass es ein globales Minimum gibt). Da , hat es eine positive Quadratwurzel .λ ≥ 0 ν 2 = λ
Betrachten Sie die Matrix die mit Zeilen erweitert ist, die dem fachen der Identitätsmatrix :ν p × p I
Wenn der Vektor am Ende von ähnliche Weise mit Nullen erweitert wird, fügt das Matrixprodukt in der Zielfunktion zusätzliche Terme der Form zum ursprünglichen Ziel. Deshalbp y ∗ p ( 0 - ν β i ) 2 = λ β 2 i
Aus der Form des Ausdrucks für die linke Hand ergibt sich unmittelbar, dass die Normalgleichungen sind
Da wir an das Ende von Nullen , ist die rechte Seite dieselbe wie . Auf der linken Seite wird zum ursprünglichen addiert . Daher vereinfachen sich die neuen Normalgleichungen zuX ' y ν 2 I = λ I X ' X
Abgesehen davon, dass es konzeptionell wirtschaftlich ist - es sind keine neuen Manipulationen erforderlich, um dieses Ergebnis abzuleiten -, ist es auch rechnerisch wirtschaftlich: Ihre Software für gewöhnliche kleinste Fehlerquadrate führt auch eine Kammregression ohne jegliche Änderung durch. (Trotzdem kann es bei großen Problemen hilfreich sein, für diesen Zweck entwickelte Software zu verwenden, da die spezielle Struktur von ausgenutzt wird , um Ergebnisse für ein dichtes Intervall von effizient zu erhalten , sodass Sie untersuchen können, wie die Antworten variieren mit .) λ λ
Eine weitere Schönheit dieser Betrachtungsweise ist, wie sie uns helfen kann, die Regression der Grate zu verstehen. Wenn wir die Regression wirklich verstehen wollen, hilft es fast immer, sie geometrisch zu denken: Die Spalten von bilden Vektoren in einem realen Vektorraum der Dimension . Durch anschließende bis , dadurch verlängert sie von -Vektoren zu -Vektoren wir Einbettungs in einem größeren Raum , indem "imaginäre", zueinander orthogonale Richtungen. Die erste Spalte vonp n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0erhält eine kleine imaginäre Komponente der Größe , wodurch sie verlängert und aus dem von den ursprünglichen Spalten erzeugten Raum verschoben wird . Die zweite, dritte, ..., -Spalte wird ebenfalls verlängert und um den gleichen Betrag aus dem ursprünglichen Raum verschoben - aber alle in unterschiedliche neue Richtungen. Folglich wird jede Kollinearität, die in den ursprünglichen Spalten vorhanden ist, sofort aufgelöst. Außerdem nähern sich diese neuen Vektoren umso mehr dem Individuum , je größer wirdimaginäre Richtungen: Sie werden immer orthonormaler. Folglich wird die Lösung der Normalgleichungen sofort möglich und wird schnell numerisch stabil, wenn von zunimmt .
Diese Beschreibung des Prozesses schlägt einige neuartige und kreative Ansätze zur Lösung der Probleme vor, für die Ridge Regression entwickelt wurde. Beispielsweise können Sie mit beliebigen Mitteln (wie etwa der Varianzzerlegung, die von Belsley, Kuh und Welsch in ihrem Buch über Regressionsdiagnostik von 1980 , Kapitel 3, beschrieben wurde) Untergruppen von nahezu kollinearen Spalten von identifizieren , in denen jede Untergruppe vorhanden ist ist fast orthogonal zu jedem anderen. Sie angrenzen so viele Zeilen zu müssen (und Nullen ) , da es Elemente in der größten Gruppe, von seinen Geschwistern eine neue „imaginäre“ Dimension zu widmen für jedes Element einer Gruppe zu verschieben weg: Sie brauchen keine imaginäre Dimensionen, um dies zu tun.X y p
Ich bin kürzlich im Zusammenhang mit P-Splines auf dieselbe Frage gestoßen, und da das Konzept dasselbe ist, möchte ich eine detailliertere Antwort auf die Herleitung des Gratschätzers geben.
Wir beginnen mit einer bestraften Kriteriumsfunktion, die sich von der klassischen OLS-Kriteriumsfunktion durch ihren Bestrafungsbegriff im letzten Summand unterscheidet:
wo
Wir können dieses Kriterium in Matrixnotation umschreiben und weiter aufschlüsseln:
wobei die Identitätsmatrix ist
Jetzt suchen wir nach der , die unser Kriterium minimiert. Unter anderem verwenden wir die Matrixdifferenzierungsregel die wir können gelten hier als :
Es gibt ein paar wichtige Dinge, die in den gegebenen Antworten fehlen.
Die Lösung für ergibt sich aus der notwendigen Bedingung erster Ordnung: