1. Was ist RRR (Reduced-Rank Regression)?
Betrachten Sie eine multivariate multiple lineare Regression, dh eine Regression mit unabhängigen Variablen und q abhängigen Variablen. Sei X und Y zentrierte Prädiktor- ( n × p ) und Antwortdatensätze ( n × q ). Dann kann die gewöhnliche Regression der kleinsten Quadrate (OLS) so formuliert werden, dass die folgende Kostenfunktion minimiert wird:pqXYn×pn×q
L=∥Y−XB∥2,
Dabei ist eine Matrix von Regressionsgewichten. Ihre Lösung ist gegeben durch und es ist einfach zu sehen Sie, dass es äquivalent ist, separate OLS-Regressionen durchzuführen, eine für jede abhängige Variable. p × q B O L S = ( X ⊤ X ) - 1 X ⊤ Y , qBp×q
B^OLS=(X⊤X)−1X⊤Y,
q
Eine Regression mit reduziertem Rang führt eine Rangbeschränkung für , dh sollte mit minimiert werden , wobei der maximal zulässige Rang von . L Rang ( B ) ≤ r r BBLrank(B)≤rrB
2. Wie erhalte ich die RRR-Lösung?
Es stellt sich heraus, dass RRR als Eigenvektorproblem gewertet werden kann. In der Tat können wir unter Verwendung der Tatsache, dass OLS im Wesentlichen eine orthogonale Projektion auf den Spaltenraum von , als umschreiben.Der erste Term hängt nicht von und der zweite Term kann durch SVD / PCA der angepassten Werte minimiert werden . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SXL
L=∥Y−XB^OLS∥2+∥XB^OLS−XB∥2.
BY^=XB^OLS
Insbesondere wenn zuerst Hauptachsen von , dann ist r Y B R R R = B O L S U R U ⊤ r .UrrY^
B^RRR=B^OLSUrU⊤r.
3. Wofür ist RRR gut?
Es kann zwei Gründe geben, RRR zu verwenden.
Erstens kann man es für Regularisierungszwecke verwenden. Ähnlich wie bei Ridge-Regression (RR), Lasso usw. führt RRR bei eine gewisse Strafe für "Schrumpfen" ein . Der optimale Rang kann durch Kreuzvalidierung ermittelt werden. Nach meiner Erfahrung ist RRR schneller als OLS, verliert jedoch tendenziell gegen RR. RRR + RR kann jedoch (geringfügig) eine bessere Leistung als RR allein erbringen. rBr
Zweitens kann man es als Methode zur Dimensionsreduktion / Datenexploration verwenden. Wenn wir eine Reihe von Prädiktorvariablen und eine Reihe von abhängigen Variablen haben, dann konstruiert RRR "latente Faktoren" im Prädiktorraum, die die Varianz von DVs am besten erklären. Man kann dann versuchen, diese latenten Faktoren zu interpretieren, sie aufzuzeichnen usw. Soweit ich weiß, wird dies routinemäßig in der Ökologie durchgeführt, wo RRR als Redundanzanalyse bezeichnet wird und ein Beispiel für das ist, was sie Ordnungsmethoden nennen ( siehe die Antwort von @ GavinSimpson hier) ).
4. Beziehung zu anderen Dimensionalitätsreduktionsmethoden
RRR ist eng mit anderen Dimensionalitätsreduktionsmethoden wie CCA und PLS verbunden. Ich habe es in meiner Antwort auf Was ist der Zusammenhang zwischen partiellen kleinsten Quadraten, reduzierter Rangregression und Hauptkomponentenregression?
wenn und zentrierte Prädiktor- ( ) und Antwortdatensätze ( ) sind und wenn wir nach dem ersten Achsenpaar suchen, für und für , dann maximieren diese Methoden die folgenden Mengen:XY.n×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
Siehe dort für weitere Details.
In Torre, 2009, A Least-Squares Framework for Component Analysis, wird detailliert beschrieben, wie die meisten gängigen linearen multivariaten Methoden (z. B. PCA, CCA, LDA, - aber nicht PLS!) Als RRR angesehen werden können.
5. Warum ist dieser Abschnitt in Hastie et al. so verwirrend?
Hastie et al. Verwenden Sie den Begriff RRR, um sich auf etwas anderes zu beziehen! Anstelle der Verlustfunktion sie wie aus deren Formel 3.68 hervorgeht. Dies führt einen Whitening-Faktor in die Verlustfunktion ein, der im Wesentlichen die abhängigen Variablen aufhellt. Wenn Sie sich den Vergleich zwischen CCA und RRR oben ansehen, werden Sie feststellen, dass der Unterschied verschwindet , wenn weiß wird. Also, was Hastie et al. Call RRR ist eigentlich CCA in Verkleidung (und in der Tat, siehe deren 3,69).
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY
Nichts davon wird in diesem Abschnitt richtig erklärt, daher die Verwirrung.
Weitere Informationen finden Sie in meiner Antwort auf das Tutorial "Freundlich" oder in der Einführung in die Regression mit reduziertem Rang .