Die Grenze des Ridge-Regressionsschätzers für "Einheitsvarianz", wenn


21

Betrachten Sie die Ridge-Regression mit einer zusätzlichen Einschränkung, die voraussetzt, dass eine Einheitssumme von Quadraten hat (entsprechend eine Einheitsvarianz). Bei Bedarf kann man davon ausgehen, dass eine Einheitssumme von Quadraten hat:y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Was ist die Grenze von β^λ wenn λ ?


Hier sind einige Aussagen, von denen ich glaube, dass sie wahr sind:

  1. Wenn λ=0 , gibt es eine ordentliche explizite Lösung: nimm OLS Estimator β^0=(XX)1Xy und normalisiere es, um die Bedingung zu erfüllen (man kann dies durch Hinzufügen eines Lagrange-Multiplikators und Differenzieren sehen):

    β^0=β^0/Xβ^0.
  2. Im Allgemeinen lautet die Lösung

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Ich sehe keine geschlossene Lösung, wenn λ>0 . Es scheint, dass die Lösung dem üblichen RR-Schätzer mit einigem \ lambda ^ * entspricht, das λnormalisiert wird, um die Bedingung zu erfüllen, aber ich sehe keine geschlossene Formel für λ .
  3. Bei λ hat der übliche RR-Schätzer {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y konvergiert

    β^λ=(XX+λI)1Xy
    offensichtlich gegen Null, aber seine Richtung β^λ/β^λkonvergiert in die Richtung von Xy , auch bekannt als die erste Komponente der kleinsten Quadrate (PLS).

Die Aussagen (2) und (3) lassen mich zusammen denken, dass vielleicht β^λ auch gegen das entsprechend normalisierte \ mathbf X ^ \ top \ mathbf y konvergiert Xy, aber ich bin mir nicht sicher, ob dies so ist ist richtig und ich habe es nicht geschafft, mich so oder so zu überzeugen.

Antworten:


17

Eine geometrische Interpretation

Der in der Frage beschriebene Schätzer ist das Lagrange-Multiplikatoräquivalent des folgenden Optimierungsproblems:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

Dies kann geometrisch als Auffinden des kleinsten Ellipsoids , das den Schnittpunkt der Kugel und des Ellipsoids berührtf(β)=RSS g(β)=th(β)=1


Vergleich mit der Standardansicht der Gratregression

In Bezug auf eine geometrische Ansicht ändert dies die alte Ansicht (für die Standardkammregression) des Punktes, an dem sich ein Sphäroid (Fehler) und eine Kugel ( ) berührenβ2=t . In einer neuen Ansicht suchen wir nach dem Punkt, an dem der Sphäroid (Fehler) eine Kurve berührt (Beta-Norm durch )Xβ2=1 . Die eine Kugel (blau im linken Bild) verwandelt sich aufgrund des Schnittpunkts mit der Bedingung in eine Figur mit einer niedrigeren Dimension .Xβ=1

Im zweidimensionalen Fall ist dies einfach zu sehen.

geometrische Ansicht

Wenn wir stimmen die Parameter dann ändern wir die relative Länge der blau / roten Kugeln oder die relativen Größen von und (In der Theorie der Lagrange - Multiplikatoren gibt es wahrscheinlich eine saubere Art und Weise zu formell und genau beschreiben, dass dies bedeutet, dass für jedes als Funktion von oder umgekehrt eine monotone Funktion ist. Aber ich stelle mir vor, dass Sie intuitiv sehen können, dass die Summe der quadratischen Residuen nur zunimmt, wenn wir verringern .)tf(β)g(β) tλ||β||

Die Lösung für lautet, wie Sie in einer Zeile zwischen 0 und argumentiert haben.βλλ=0βLS

Die Lösung für ist (in der Tat, wie Sie kommentiert haben) in den Ladevorgängen der ersten Hauptkomponente. Dies ist der Punkt, an dem für am kleinsten ist . ist der Punkt, an dem der Kreis die Ellipse in einem einzelnen Punkt berührt .βλλβ2βX2=1β2=t|Xβ|=1

In dieser 2D-Ansicht sind die Kanten des Schnittpunkts von Kugel und Sphäroid Punkte. In mehreren Dimensionen sind dies Kurvenβ2=tβX2=1

(Ich dachte zuerst , dass diese Kurven Ellipsen sein würde , aber sie sind komplizierter. Sie das Ellipsoid vorstellen konnte durch die Kugel geschnitten wird wie einige Art ellipsoider Kegelstumpf, aber mit Kanten, die keine einfachen Ellipsen sind)Xβ2=1β2t


Bezüglich des Limitsλ

Zuerst (vorherige Änderungen) schrieb ich, dass es einige einschränkende über denen alle Lösungen gleich sind (und sie befinden sich im Punkt ). Dies ist jedoch nicht der Fallλlimβ

Betrachten Sie die Optimierung als LARS-Algorithmus oder Gradientenabstieg. Wenn es für einen Punkt eine Richtung gibt, in die wir das so ändern können, dass der Strafausdruck weniger zunimmt als der SSR-Ausdruck abnimmt, sind Sie nicht in einem Minimum .ββ|β|2|yXβ|2

  • Bei einer normalen Gratregression haben Sie eine Nullsteigung (in alle Richtungen) für im Punkt . Für alle endlichen die Lösung also nicht (da ein infinitesimaler Schritt durchgeführt werden kann, um die Summe der quadratischen Residuen zu reduzieren, ohne die Strafe zu erhöhen).|β|2β=0λβ=0
  • Für LASSO ist dies nicht dasselbe, da die Strafe (also nicht quadratisch mit einer Steigung von Null). Aus diesem Grund wird LASSO einen Grenzwert über dem alle Lösungen Null sind, da der Strafwert (multipliziert mit ) mehr zunimmt, als die verbleibende Quadratsumme abnimmt.|β|1λlimλ
  • Für den eingeschränkten Kamm erhalten Sie das Gleiche wie für die reguläre Kammregression. Wenn Sie das beginnend mit ändern, verläuft diese Änderung senkrecht zu (das verläuft senkrecht zur Oberfläche der Ellipse ). und kann durch einen infinitesimalen Schritt geändert werden, ohne den Strafausdruck zu ändern, aber die Summe der quadratischen Residuen zu verringern. Somit kann für jedes endliche der Punkt nicht die Lösung sein.ββββ|Xβ|=1βλβ

Weitere Hinweise zum Limitλ

Die übliche Kammregressionsgrenze für bis unendlich entspricht einem anderen Punkt in der eingeschränkten Kammregression. Diese 'alte' Grenze entspricht dem Punkt, an dem gleich -1 ist. Dann die Ableitung der Lagrange-Funktion in das normalisierte Problemλμ

2(1+μ)XTXβ+2XTy+2λβ
entspricht einer Lösung für die Ableitung der Lagrange-Funktion im Standardproblem

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Geschrieben von StackExchangeStrike


+1. Vielen Dank, das ist super hilfreich! Ich werde etwas Zeit brauchen, um darüber nachzudenken.
Amöbe sagt Reinstate Monica

Es ist erwähnenswert, dass die roten und schwarzen Ellipsoide die gleiche Form haben: Deshalb liegt der Punkt, an dem sie sich berühren, auf der Linie, die ihre Zentren verbindet. Schöner grafischer Beweis für Punkt 1 in meiner Frage.
Amöbe sagt Reinstate Monica

Ich versuche zu verstehen, wo sich auf Ihrer Zeichnung die Beta befindet, die einem Kammschätzer mit unendlichem Lambda entspricht, normalisiert, um auf der schwarzen Ellipse zu liegen. Ich denke, es liegt irgendwo zwischen und (unter Verwendung meiner Notation) - zwei Punkte, die in Ihrer Zeichnung mit schwarzen, offenen Kreisen markiert sind. Wenn wir also eine Ridge-Regression durchführen und die Lösung normalisieren und Lambda von 0 bis unendlich erhöhen, führt uns dies wahrscheinlich auf demselben Bogen, aber nicht auf dem gesamten Weg bis PC1. Wenn Sie stattdessen die Einschränkung explizit eingeben, werden die Lösungen bis zu PC1 ausgeführt. β0βXβ=1
Amöbe sagt Reinstate Monica

+5 (Ich habe ein Kopfgeld angefangen, das ich gerne für Ihre Antwort vergeben werde). Ich habe auch meine eigene Antwort gepostet, weil ich einige algebraische Ableitungen gemacht habe und es zu viel war, um die Frage zu ergänzen. Ich bin von Ihrer Schlussfolgerung nicht überzeugt, dass es irgendeinen endlichen nach dem sich die Lösung nicht mehr ändern wird und von PC1 gegeben wird. Ich sehe es nicht algebraisch und verstehe Ihr Argument dafür, warum es existieren sollte, nicht ganz. Versuchen wir es herauszufinden. λlim
Amöbe sagt Reinstate Monica

@amoeba, du hattest recht mit dem endlichen nicht existiert. Ich habe zu viel intuitiv argumentiert und bin schnell von einer bestimmten Bedingung für die reguläre Kammregression zu der eingeschränkten Kammregression übergegangen. Regulärer RR hat eine Nullsteigung (in alle Richtungen) für im Punkt . Ich dachte, dass (seit ) Sie dies nicht mit der eingeschränkten Regression bekommen. Da jedoch auf das Ellipsoid Sie können in alle Richtungen 'bewegen' . λlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus

10

Dies ist ein algebraisches Gegenstück zu @ Martijns schöner geometrischer Antwort.

Zuallererst die Grenze von wenn sehr ist einfach zu erhalten: im Grenzfall wird der erste Term in der Verlustfunktion vernachlässigbar und kann daher vernachlässigt werden. Das Optimierungsproblem wird ist die erste Hauptkomponente von

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λ
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(entsprechend skaliert). Dies beantwortet die Frage.

Betrachten wir nun die Lösung für jeden Wert von , auf den ich in Punkt 2 meiner Frage Bezug genommen habe. Addiert man zur Verlustfunktion den Lagrange-Multiplikator und differenziert manλμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Wie verhält sich diese Lösung, wenn von null bis unendlich wächst?λ

  • Bei erhalten wir eine skalierte Version der OLS-Lösung:λ=0

    β^0β^0.
  • Für positive, aber kleine Werte von ist die Lösung eine skalierte Version eines Gratschätzers:λ

    β^λβ^λ.
  • Wennist der Wert von benötigt wird, um die Bedingung zu erfüllen, . Dies bedeutet, dass die Lösung eine skalierte Version der ersten PLS-Komponente ist (was bedeutet, dass des entsprechenden Kantenschätzers ):λ=XXy(1+μ)0λ

    β^XXyXy.
  • Wenn größer als das wird, wird der notwendige Term negativ. Ab sofort ist die Lösung eine skalierte Version eines Pseudo-Ridge-Schätzers mit negativem Regularisierungsparameter ( negativer Ridge ). In Bezug auf die Richtungen sind wir nun hinter der Gratregression mit unendlichem Lambda.λ(1+μ)

  • Wenn , würde der Term auf Null gehen (oder divergieren zu unendlich) es sei denn wobei der größte Singularwert von . Dies macht endlich und proportional zur ersten Hauptachse . Wir müssen , um die Bedingung zu erfüllen. So erhalten wir dasλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

Insgesamt sehen wir, dass dieses eingeschränkte Minimierungsproblem Versionen mit Einheitsvarianz von OLS, RR, PLS und PCA im folgenden Spektrum umfasst:

OLSRRPLSnegative RRPCA

Dies scheint einem obskuren (?) Chemometrischen Framework mit der Bezeichnung "Continuum Regression" (siehe https://scholar.google.de/scholar?q="continuum+regression " , insbesondere Stone & Brooks 1990, Sundberg 1993, zu entsprechen. Björkström & Sundberg 1999 usw.), die die gleiche Vereinheitlichung durch Maximierung eines Ad-hoc- KriteriumsDies ergibt offensichtlich skaliertes OLS, wenn , PLS, wenn , PCA, wenn ;, und es kann gezeigt werden, dass es skaliertes RR für ergibt

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , siehe Sundberg 1993.

Trotz einiger Erfahrung mit RR / PLS / PCA / etc muss ich zugeben, dass ich noch nie von "Continuum Regression" gehört habe. Ich sollte auch sagen, dass ich diesen Begriff nicht mag.


Ein Schema, das ich basierend auf dem von @ Martijn gemacht habe:

Einheitsvarianz-Grat-Regression

Update: Die Abbildung wurde mit dem negativen Gratpfad aktualisiert. Vielen Dank an @Martijn, der vorgeschlagen hat, wie es aussehen soll. Weitere Informationen finden Sie in meiner Antwort unter Grundlegendes zur negativen Gratregression .


"Continuum Regression" scheint eine überraschend breite Kategorie von Techniken zu sein, die darauf abzielen, PLS und PCA in einem gemeinsamen Rahmen zu vereinen. Übrigens hatte ich bis zur Untersuchung des negativen Kamms noch nie davon gehört (ich gebe einen Link zu Björkstron & Sundberg, 1999, Artikel im ersten Kommentar der Frage nach dem negativen Kamm, auf die Sie verweisen), obwohl dies in anscheinend ziemlich häufig diskutiert wird die chemometrische Literatur. Es muss einen historischen Grund geben, warum es sich scheinbar isoliert von anderen Bereichen der Statistik entwickelt hat. (1/3)
Ryan Simmons

Ein Artikel, den Sie vielleicht lesen möchten, ist de Jong et al. (2001) . Ihre Formulierung von "kanonischem PLS" scheint auf den ersten Blick Ihrer zu entsprechen, obwohl ich die Mathematik noch nicht genau verglichen habe (sie bieten auch einen Überblick über mehrere andere PLS-PCA-Verallgemeinerungen in der gleichen Richtung). Aber es mag aufschlussreich sein zu sehen, wie sie das Problem erklärt haben. (2/3)
Ryan Simmons

Im Falle, dass dieser Link stirbt, lautet das vollständige Zitat: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Kanonische partielle kleinste Quadrate und Kontinuumsmacht-Regression." Journal of Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons

1
ah, ok, dann gehen und nach unendlich, aber ihr Verhältnis bleibt . In jedem Fall sollte der negative Gratregressionspfad im (negativen) Sektor zwischen den PLS- und PCA-Vektoren liegen, so dass deren Projektion auf die Ellipseliegt zwischen den Punkten PLS und PCA. (Die Norm, die ins Unendliche geht, ist sinnvoll, da das ins Unendliche geht, sodass der Pfad weiter nach rechts unten verläuft, zunächst tangential zu, negativ, PLS und schließlich zu PCA)λ1+μ±smax2|Xβ=1|μ
Sextus Empiricus

1
Es würde zur Visualisierung beitragen. Ich stelle mir die aktuellen drei RR-Pfadpunkte vor (an denen sich der Kreis und das Ellipsoid berühren), die sich nach rechts abwärts fortsetzen und schließlich im Unendlichen den Kreis und das Ellipsoid sollte sich in Richtung der Stelle 'berühren', an der der Kreis das Ellipsoid berührt|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.