Worum geht es bei der „Regression mit reduziertem Rang“?

Ich habe die Elemente des statistischen Lernens gelesen und konnte nicht verstehen, worum es in Abschnitt 3.7 "Schrumpfung und Auswahl mehrerer Ergebnisse" geht. Es geht um RRR (Reduced-Rank-Regression), und ich kann nur verstehen, dass es sich bei der Prämisse um ein verallgemeinertes multivariates lineares Modell handelt, bei dem die Koeffizienten unbekannt sind (und geschätzt werden sollen), aber bekanntermaßen nicht den vollen Rang haben. Das ist das einzige, was ich verstehe.

Der Rest der Mathematik ist mir ein Rätsel. Es hilft nicht einmal, dass die Autoren sagen, man kann zeigen und die Dinge als Übung belassen.

Kann jemand bitte helfen, zu erklären, was hier geschieht, intuitiv? Bespricht dieses Kapitel angeblich neue Methoden? oder was?

— cgo
quelle

Es scheint Regressionsmethoden zu geben, die im Kontext von Schrumpfung und Variablenauswahl auf Multi-Outcome-Modellen aufbauen. Es gibt kein einziges Y-Ergebnis, sondern mehr als ein Y-Ergebnis. Angenommen, Sie haben 5-jährige Ergebnisse. In diesem Abschnitt werden Methoden erläutert, mit denen die Schätzung der Methoden zusammengefasst werden kann, anstatt nur 5 separate Modelle zu erstellen.

— 15.

Meine wenigen Cent: Die Annahme einer Matrix mit niedrigem Rang macht die Dinge einfacher. Glücklicherweise gilt diese Annahme für viele reale Datenquellen.

— Vladislavs Dovgalecs

Es sieht so aus, als ob es bei dieser Annahme um die Einschränkung der Lösung geht. In diesem Artikel wird beschrieben, warum statprob.com/encyclopedia/…

— Vladislavs Dovgalecs

1. Was ist RRR (Reduced-Rank Regression)?

Betrachten Sie eine multivariate multiple lineare Regression, dh eine Regression mit unabhängigen Variablen und abhängigen Variablen. Sei und zentrierte Prädiktor- ( ) und Antwortdatensätze ( ). Dann kann die gewöhnliche Regression der kleinsten Quadrate (OLS) so formuliert werden, dass die folgende Kostenfunktion minimiert wird: $p$ $q$ $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$

Dabei ist eine Matrix von Regressionsgewichten. Ihre Lösung ist gegeben durch und es ist einfach zu sehen Sie, dass es äquivalent ist, separate OLS-Regressionen durchzuführen, eine für jede abhängige Variable. $\mathbf B$ $p\times q$

{\hat{B}}_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} Y,

$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$

q

$q$

Eine Regression mit reduziertem Rang führt eine Rangbeschränkung für , dh sollte mit minimiert werden , wobei der maximal zulässige Rang von . $\mathbf B$ $L$ $\operatorname{rank}(\mathbf B)\le r$ $r$ $\mathbf B$

2. Wie erhalte ich die RRR-Lösung?

Es stellt sich heraus, dass RRR als Eigenvektorproblem gewertet werden kann. In der Tat können wir unter Verwendung der Tatsache, dass OLS im Wesentlichen eine orthogonale Projektion auf den Spaltenraum von , als umschreiben.Der erste Term hängt nicht von und der zweite Term kann durch SVD / PCA der angepassten Werte minimiert werden . $\mathbf X$ $L$

L = ‖ Y - X {\hat{B}}_{O L S} ‖^{2} + ‖ X {\hat{B}}_{O L S} - X B ‖^{2} .

$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$

B

$\mathbf B$

\hat{Y} = X {\hat{B}}_{O L S}

$\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$

Insbesondere wenn zuerst Hauptachsen von , dann ist $\mathbf U_r$ $r$ $\hat{\mathbf Y}$

{\hat{B}}_{R R R} = {\hat{B}}_{O L S} U_{r} U_{r}^{⊤} .

$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$

3. Wofür ist RRR gut?

Es kann zwei Gründe geben, RRR zu verwenden.

Erstens kann man es für Regularisierungszwecke verwenden. Ähnlich wie bei Ridge-Regression (RR), Lasso usw. führt RRR bei eine gewisse Strafe für "Schrumpfen" ein . Der optimale Rang kann durch Kreuzvalidierung ermittelt werden. Nach meiner Erfahrung ist RRR schneller als OLS, verliert jedoch tendenziell gegen RR. RRR + RR kann jedoch (geringfügig) eine bessere Leistung als RR allein erbringen. $\mathbf B$ $r$

Zweitens kann man es als Methode zur Dimensionsreduktion / Datenexploration verwenden. Wenn wir eine Reihe von Prädiktorvariablen und eine Reihe von abhängigen Variablen haben, dann konstruiert RRR "latente Faktoren" im Prädiktorraum, die die Varianz von DVs am besten erklären. Man kann dann versuchen, diese latenten Faktoren zu interpretieren, sie aufzuzeichnen usw. Soweit ich weiß, wird dies routinemäßig in der Ökologie durchgeführt, wo RRR als Redundanzanalyse bezeichnet wird und ein Beispiel für das ist, was sie Ordnungsmethoden nennen ( siehe die Antwort von @ GavinSimpson hier) ).

4. Beziehung zu anderen Dimensionalitätsreduktionsmethoden

RRR ist eng mit anderen Dimensionalitätsreduktionsmethoden wie CCA und PLS verbunden. Ich habe es in meiner Antwort auf Was ist der Zusammenhang zwischen partiellen kleinsten Quadraten, reduzierter Rangregression und Hauptkomponentenregression?

wenn und zentrierte Prädiktor- ( ) und Antwortdatensätze ( ) sind und wenn wir nach dem ersten Achsenpaar suchen, für und für , dann maximieren diese Methoden die folgenden Mengen: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

$\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}$ $\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

Siehe dort für weitere Details.

In Torre, 2009, A Least-Squares Framework for Component Analysis, wird detailliert beschrieben, wie die meisten gängigen linearen multivariaten Methoden (z. B. PCA, CCA, LDA, - aber nicht PLS!) Als RRR angesehen werden können.

5. Warum ist dieser Abschnitt in Hastie et al. so verwirrend?

Hastie et al. Verwenden Sie den Begriff RRR, um sich auf etwas anderes zu beziehen! Anstelle der Verlustfunktion sie wie aus deren Formel 3.68 hervorgeht. Dies führt einen Whitening-Faktor in die Verlustfunktion ein, der im Wesentlichen die abhängigen Variablen aufhellt. Wenn Sie sich den Vergleich zwischen CCA und RRR oben ansehen, werden Sie feststellen, dass der Unterschied verschwindet , wenn weiß wird. Also, was Hastie et al. Call RRR ist eigentlich CCA in Verkleidung (und in der Tat, siehe deren 3,69).

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$

L = ‖ (Y - X B) (Y^{⊤} Y)^{- 1 / 2} ‖^{2},

$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$

Y

$\mathbf Y$

Y

$\mathbf Y$

Nichts davon wird in diesem Abschnitt richtig erklärt, daher die Verwirrung.

Weitere Informationen finden Sie in meiner Antwort auf das Tutorial "Freundlich" oder in der Einführung in die Regression mit reduziertem Rang .

— Amöbe sagt Reinstate Monica
quelle

Dies ist eine sehr schön geschriebene detaillierte Erklärung. Danke, ich weiß das zu schätzen.

— cgo

@amoeba Fantastische Antwort. Kann ich ein paar Retuschen vorschlagen, um den Zugang zu erleichtern? Können Sie in der letzten Zeile des ersten Eintrags angeben, was ist, z. B. den Rang der Modellmatrix, wenn dies der Fall ist. Zweitens führen Sie in der Definitionsgleichung unter dem zweiten Eintrag , bei dem es sich um die Populationskoeffizienten und damit um einen unbekannten Parameter handelt. Können Sie das etwas näher erläutern?

r

$r$

B

$\bf B$

— Antoni Parellada

(1) Es ist eine multivariate Regression, @Antoni, dh ist eine Matrix und ist auch eine Matrix, kein Vektor. (2) Hier ist nur ein Parameter der Verlustfunktion . Das Ziel ist es, zu finden, das minimiert .

Y

$Y$

B

$B$

B

$B$

L

$L$

B

$B$

L

$L$

— Amöbe sagt Reinstate Monica

r

$r$

r

$r$

\hat{df} (r) = p q - (p - r) (q - r) + "a small correction term"

$\hat{\text{df}}(r) = pq - (p-r)(q-r) + \text{"a small correction term"}$

p

$p$

q

$q$

r

$r$

\frac{‖ Y - {\hat{Y}}^{RRRR} (r) ‖_{Fro}^{2}}{(n q - \hat{df} (r))^{2}}

$\frac{\|Y - \hat{Y}^{\text{RRRR}}(r)\|_{\text{Fro}}^2}{(nq - \hat{\text{df}}(r))^2}$

Siehe zum Beispiel google.fr/url?sa=t&source=web&rct=j&url=https://…

— dohmatob

Reduced Rank Regression ist ein Modell, bei dem es nicht nur ein einziges Y-Ergebnis gibt, sondern mehrere Y-Ergebnisse. Natürlich können Sie einfach für jede Antwort eine separate multivariate lineare Regression anpassen. Dies scheint jedoch ineffizient zu sein, wenn die funktionale Beziehung zwischen den Prädiktoren und jeder Antwort eindeutig ähnlich ist. Sehen Sie sich diese Kaggle-Übung an, wenn ich glaube, dass dies offensichtlich zutrifft.

https://www.kaggle.com/c/bike-sharing-demand/data

Es gibt verschiedene verwandte Techniken zur Lösung dieses Problems, die "Faktoren" oder "Komponenten" aus den X-Variablen bilden, die dann zur Vorhersage der Ys verwendet werden. Diese Dokumentationsseite von SAS hat mir geholfen, die Unterschiede zu klären. Bei der reduzierten Rangregression geht es anscheinend darum, Komponenten zu extrahieren, die die Variation zwischen den Antworten maximal berücksichtigen, im Gegensatz zu Partial Least Squares, bei denen Komponenten extrahiert werden, die die Variation zwischen den Antworten und den Prädiktoren maximal berücksichtigen.

https://support.sas.com/documentation/cdl/de/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm

— Iggy25
quelle

+1. Das ist richtig. Ich habe diese SAS-Dokumentationsseite und insbesondere deren Abbildung in meiner Antwort an stats.stackexchange.com/questions/206587 besprochen.

— Amöbe sagt Reinstate Monica