Probabilistische Modelle für partielle kleinste Quadrate, reduzierte Rangregression und kanonische Korrelationsanalyse?

Diese Frage ergibt sich aus der Diskussion nach einer vorherigen Frage: Welche Verbindung besteht zwischen partiellen kleinsten Quadraten, reduzierter Rangregression und Hauptkomponentenregression?

Für die Hauptkomponentenanalyse ist ein häufig verwendetes Wahrscheinlichkeitsmodell wobei , , und . Dann wird die Population Kovarianz ist , dh Das Ziel ist es, zu schätzen

x = \sqrt{λ} w z + ϵ \in R^{p},

$\mathbf x = \sqrt{\lambda} \mathbf{w} z + \boldsymbol \epsilon \in \mathbb R^p,$

z \sim N (0, 1)

$z\sim \mathcal N(0,1)$

w \in S^{p - 1}

$\mathbf{w}\in S^{p-1}$

λ > 0

$\lambda > 0$

ϵ \sim N (0, I_{p})

$\boldsymbol\epsilon \sim \mathcal N(0,\mathbf{I}_p)$

x

$\mathbf{x}$

λ w w^{T} + I_{p}

$\lambda \mathbf{w}\mathbf{w}^T + \mathbf{I}_p$

x \sim N (0, λ w w^{T} + I_{p}) .

$\mathbf{x}\sim \mathcal N(0,\lambda \mathbf{w}\mathbf{w}^T + \mathbf{I}_p).$

w

$\mathbf{w}$ . Dies ist als das mit Spikes versehene Kovarianzmodell bekannt, das in der PCA-Literatur häufig verwendet wird. Das Problem der Schätzung des wahren

w

$\mathbf{w}$ kann gelöst werden, indem

Var (X w)

$\operatorname{Var} (\mathbf{Xw})$ über

w

$\mathbf{w}$ auf der Einheitskugel maximiert wird .

Wie in der Antwort auf die vorherige Frage von @amoeba ausgeführt, haben reduzierte Rangregression, partielle kleinste Quadrate und kanonische Korrelationsanalyse eng verwandte Formulierungen.

$\begin{aligned} P C A : & Var (X w), \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v), \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v), \\ C C A : & {Corr}^{2} (X w, Y v) . \end{aligned}$ $\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}),\\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}),\\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv}),\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}). \end{align}$

Die Frage ist, welche Wahrscheinlichkeitsmodelle stehen hinter RRR, PLS und CCA? Insbesondere denke ich anWie hängt von und in RRR, PLS und CCA ab? Gibt es darüber hinaus ein einheitliches Wahrscheinlichkeitsmodell (wie das Spikeed-Covarianz-Modell für PCA) für sie?

(x^{T}, y^{T})^{T} \sim N (0, Σ) .

$(\mathbf{x}^T, \mathbf{y}^T)^T \sim \mathcal N(0, \mathbf{\Sigma}).$

Σ

$\mathbf{\Sigma}$

w

$\mathbf{w}$

v

$\mathbf{v}$

— Minkov
quelle

Hallo @Moskowitz. Geht meine Antwort in die Richtung, auf die Sie gehofft haben? Ich kann sehen, dass es Ihre Frage nicht vollständig beantwortet, aber ich würde mich über Feedback freuen und auch daran interessiert sein, Ihre Gedanken darüber zu erfahren. Ich könnte meine Beschreibung von PCCA erweitern, wenn Sie möchten; Nicht wirklich existierendes "PPLS" ist etwas, worüber ich vor ein paar Jahren nachgedacht habe und über das ich wieder nachdenke. Wäre also gespannt auf deine Gedanken dazu.

— Amöbe

Hallo @amoeba. Vielen Dank für die Antwort. Entschuldigung für die verspätete Antwort. Ich habe darüber nachgedacht, das PPLS als ein weiteres Multi-View-Modell anzusehen, bei dem die beiden x-Variablen unterschiedliche Verteilungen haben, aber nicht ganz erfolgreich waren. Ich werde versuchen, zu Ihrer Antwort hinzuzufügen, wenn ich herausfinden kann;)

— Minkov

Die probabilistische kanonische Korrelationsanalyse (probabilistische CCA, PCCA) wurde in Bach & Jordan, 2005, eingeführt. Eine probabilistische Interpretation der kanonischen Korrelationsanalyse , einige Jahre nachdem Tipping & Bishop ihre probabilistische Hauptkomponentenanalyse (probabilistische PCA, PPCA) vorgestellt hatte.

Kurz gesagt basiert es auf dem folgenden Wahrscheinlichkeitsmodell:

\begin{aligned} z & \sim N (0, I) \\ x | z & \sim N (W_{x} z + μ_{x}, Ψ_{x}) \\ y | z & \sim N (W_{y} z + μ_{y}, Ψ_{y}) \end{aligned}

$\begin{align} \newcommand{\z}{\mathbf z} \newcommand{\x}{\mathbf x} \newcommand{\y}{\mathbf y} \newcommand{\m}{\boldsymbol \mu} \newcommand{\P}{\boldsymbol \Psi} \newcommand{\S}{\boldsymbol \Sigma} \newcommand{\W}{\mathbf W} \newcommand{\I}{\mathbf I} \newcommand{\w}{\mathbf w} \newcommand{\u}{\mathbf u} \newcommand{\0}{\mathbf 0} \z &\sim \mathcal N(\0,\I) \\ \x|\z &\sim \mathcal N(\W_x \z + \boldsymbol \m_x, \P_x)\\ \y|\z &\sim \mathcal N(\W_y \z + \boldsymbol \m_y, \P_y) \end{align}$

Hier sind Rauschkovarianzen und beliebige symmetrische Matrizen mit vollem Rang. $\P_x$ $\P_y$

Wenn wir die eindimensionale latente Variable , annehmen, dass alle Mittel Null sind , und und zu einem Vektor kombinieren , erhalten wir: $z$ $\m_x=\m_y=0$ $\x$ $\y$

(\begin{matrix} x \\ y \end{matrix}) \sim N (0, Σ), Σ = (\begin{matrix} w_{x} w_{x}^{⊤} + Ψ_{x} & w_{x} w_{y}^{⊤} \\ w_{y} w_{x}^{⊤} & w_{y} w_{y}^{⊤} + Ψ_{y} \end{matrix}) .

$\begin{pmatrix} \x\\ \y\end{pmatrix}\sim\mathcal N (\0,\S),\quad\quad\quad\S=\begin{pmatrix}\w_x\w_x^\top+\P_x & \w_x\w_y^\top \\ \w_y\w_x^\top & \w_y\w_y^\top+\P_y\end{pmatrix}.$

Bach & Jordan haben bewiesen, dass dies dem Standard-CCA entspricht. Insbesondere ist die Maximum Likelihood (ML) -Lösung gegeben durch wobei Beispielkovarianzmatrizen beider Datensätze sind, das erste kanonische Achsenpaar ist und willkürlich sind Zahlen (beide zwischen und ) geben die erste kanonische Korrelation als Produkt an.

w_{i} = Σ_{i} u_{i} m_{i},

$\w_i = \S_i\u_i m_i,$

Σ_{i}

$\S_i$

u_{i}

$\u_i$

m_{x} m_{y} = ρ_{1}

$m_x m_y = \rho_1$

0

$0$

1

$1$

Wie Sie sehen, sind nicht direkt gleich den CCA-Achsen, sondern werden durch eine Transformation dieser Achsen gegeben. Siehe Bach & Jordan für weitere Details. $\w_i$

Ich habe kein gutes intuitives Verständnis von PCCA. Wie Sie sehen können, wird die zwischen und durch modelliert , so dass man naiv erwarten könnte, dass eher PLS-Achsen ergibt. Die ML-Lösung bezieht sich jedoch auf die CCA-Achsen. Es liegt wahrscheinlich irgendwie an der Struktur von . $X$ $Y$ $\w_x \w_y^\top$ $\w_i$ $\P=\begin{pmatrix}\P_x & \0\\ \0 & \P_y\end{pmatrix}$

Mir sind keine ähnlichen probabilistischen Versionen von RRR oder PLS bekannt, und ich habe mir selbst keine ausgedacht. Beachten Sie, dass wenn diagonal ist, wir FA für den kombinierten Datensatz erhalten, und wenn es diagonal und isotrop ist, erhalten wir PPCA für den kombinierten Datensatz. Es gibt also einen Fortschritt von CCA über FA zu PPCA, da immer enger wird. Ich sehe nicht, welche anderen Möglichkeiten von vernünftig sein können. $\P$ $X+Y$ $\P$ $\P$

— Amöbe
quelle

Kurz gesagt: Was bedeutet "isotrop" in Ihrem vorletzten Satz?

— Gottfried Helms

@Gottfried, bedeutet dies , dass es diagonal ist und alle Elemente auf der Diagonalen gleich sind, dh . Ich werde bearbeiten, um zu klären.

\P = σ^{2} \I

$\P = \sigma^2 \I$

— Amöbe

Ich verstehe, danke. Ich hatte eine solche Struktur in mein pca / factor-Programm implementiert, ohne den Namen zu kennen, basierend auf einem Hinweis von S. Mulaik in seinem Buch von 1972. Gut zu wissen ...

— Gottfried Helms