Warum sind PCA-Eigenvektoren orthogonal und in welcher Beziehung stehen die PCA-Scores nicht korreliert?

Ich lese über PCA und verstehe die meisten Vorgänge in Bezug auf die Ableitung, abgesehen von der Annahme, dass Eigenvektoren orthogonal sein müssen und in welcher Beziehung sie zu den Projektionen (PCA-Scores) stehen, die nicht korreliert sind. Ich habe unten zwei Erklärungen, die einen Zusammenhang zwischen Orthogonalität und Korrelation verwenden, diese aber nicht wirklich erklären: EINE , ZWEI .

Im zweiten Bild heißt es, dass die Bedingung auferlegt wird, um sicherzustellen, dass die Projektion nicht mit . Kann jemand ein Beispiel geben, um zu zeigen, warum orthogonale Vektoren unkorrelierte Variablen sicherstellen? $a_{2}^{T}a_{1}=0$ $y_{2}=Xa_2$ $y_{1}=Xa_1$

Was würde in PCA passieren, wenn ich Vektoren wählen würde, die nicht orthogonal sind? ist das überhaupt möglich Ich habe an anderer Stelle gelesen, dass Orthogonalität nur ein Nebenprodukt der symmetrischen Kovarianzmatrix ist, was darauf hindeuten würde, dass es nicht möglich ist, nicht paarweise orthogonale Eigenvektoren zu haben. Im ersten Bild auf der Suche nach der am besten geeigneten Matrix scheint es jedoch fast so, als würden wir als orthogonal wählen , um eine bequemere Matrix zu erhalten hat schöne Eigenschaften. $p_{1},\ldots,p_{m}$ $\textbf{P}$

Ich habe andere Beiträge zu diesem Thema gelesen, war jedoch mit der Einbeziehung der Intuition in unkorrelierte Variablen nicht zufrieden. Ich freue mich über jede Hilfe, um diese Verwirrung zu verstehen !!

mathematical-statistics pca eigenvalues

— Pavan Sangha
quelle

Das Punktprodukt zentrierter Vektoren ist immer proportional zu ihrer Kovarianz, die wiederum proportional zu ihrer Korrelation ist. Dies ist unmittelbar: Die Formeln für alle drei sind bis zu einer Konstante ungleich Null gleich. Somit ist eins genau dann Null, wenn das andere Null ist.

— whuber

@whuber Ich glaube , Sie die Frage falsch verstanden: OP gefragt wird , wie Orthogonalität des PCA Eigenvektoren impliziert Null - Korrelation der Daten Projektionen auf diese Eigenvektoren.

— Amöbe

@Amoeba Ich fürchte, das mystifiziert mich noch mehr. Wenn Vektoren orthogonal sind, müssen erst recht alle Projektionen auf diese Vektoren orthogonal sein. Die Frage, auf die ich geantwortet habe, lautet: "Kann jemand ein Beispiel geben, um zu zeigen, warum orthogonale Vektoren unkorrelierte Variablen sicherstellen?" Das scheint immer noch zu fragen, warum Orthogonalität mangelnde Korrelation impliziert.

— whuber

@whuber Was meinst du mit "Wenn Vektoren orthogonal sind, müssen erst recht alle Projektionen auf diese Vektoren orthogonal sein"? Hier gibt es einige Missverständnisse. Nehmen Sie alle bivariaten Daten mit einer Korrelation ungleich Null. Die Vektoren [0,1] und [1,0] (Basisvektoren) sind orthogonal, aber Datenprojektionen auf diese Vektoren sind korreliert.

— Amöbe

@ Amoeba Ich bin sicher, dass Sie Recht haben und ich bin mir ebenso sicher, dass wir zwei unterschiedliche Auffassungen darüber haben, was Sie sagen! Wenn Sie einen Vektor auf einen Vektor und einen Vektor auf projizieren und und orthogonal sind, sind auch die Projektionen orthogonal. Wenn Sie stattdessen auf den von erzeugten Vektorraum projizieren, müssen die Projektionen natürlich nicht orthogonal sein. Diese Kleinigkeiten sind es nicht wert, diskutiert zu werden: Unser erstes Anliegen sollte es sein, zu klären, worum es bei der Frage tatsächlich geht.

p_{1}

$p_1$

v

$v$

p_{2}

$p_2$

w

$w$

v

$v$

w

$w$

p_{i}

$p_i$ $\{v,w\}$

— whuber

Antworten:

Ich werde versuchen zu erklären, wie die Orthogonalität von und sicherstellt, dass und nicht korreliert sind. Wir wollen, dass maximiert . Dies wird nur erreicht, wenn wir einschränken , in diesem Fall durch . Diese Optimierung erfordert die Verwendung eines Lagrange-Multiplikators (es ist nicht zu kompliziert, lesen Sie darüber auf Wikipedia). Wir versuchen daher, in Bezug auf als auch zu maximieren . Beachten Sie die Differenzierung in Bezug auf $a_1$ $a_2$ $y_1$ $y_2$ $a_1$ $Var(y_1)=a_1^T \Sigma a_1$ $a_1$ $a_1^T a_1=1$

a_{1}^{T} Σ a_{1} - λ (a_{1}^{T} a_{1} - 1)

$\begin{equation} a_1^T \Sigma a_1 - \lambda(a_1^T a_1-1) \end{equation}$

a_{1}

$a_1$

λ

$\lambda$

λ

$\lambda$ und dann gleich ergibt unsere Bedingung . Die Differenzierung in Bezug auf ergibt oder Varianz von wird durch den größten Eigenwert maximiert . Also . Hier kommt der Teil, der Ihre Frage beantworten wird . Einige elementare Berechnungen unter Verwendung der Definition der Kovarianz zeigen, dass

0

$0$

a_{1}^{T} a_{1} = 1

$a_1^T a_1=1$

a_{1}

$a_1$

Σ a_{1} - λ a_{1} = 0

$\begin{equation} \Sigma a_1 -\lambda a_1 =0 \end{equation}$

(Σ - λ I_{p}) a_{1} = 0

$\begin{equation} (\Sigma -\lambda I_p)a_1=0 \end{equation}$

y_{1}

$y_1$

λ_{1}

$\lambda_1$

λ_{1} a_{1} = Σ a_{1}

$\lambda_1 a_1=\Sigma a_1$

C o v (y_{1}, y_{2}) = C o v (a_{1}^{T} x, a_{2}^{T} x) = a_{1}^{T} Σ a_{2} = a_{2}^{T} Σ a_{1} = a_{2}^{T} λ_{1} a_{1} = λ_{1} a_{2}^{T} a_{1}

$\begin{equation} Cov(y_1,y_2)=Cov(a^T_1 x,a^T_2 x)=a^T_1\Sigma a_2=a^T_2\Sigma a_1=a^T_2\lambda_1 a_1=\lambda_1 a^T_2 a_1 \end{equation}$ Dies ist genau dann gleich wenn .

0

$0$

a_{2}^{T} a_{1} = 0

$a^T_2 a_1=0$

— Bananin
quelle

PCA berechnet die Eigenvektoren der Kovarianzmatrix der Daten. Das heißt, diese Eigenvektoren entsprechen den Auswahlmöglichkeiten von , die die Gleichungen maximieren und die in Ihrem Buch angegebenen Einschränkungen erfüllen. Wenn Sie verschiedene Vektoren auswählen würden, würden diese nicht alle diese Kriterien erfüllen und es wäre keine PCA mehr (Sie würden immer noch eine Reihe von "Komponenten" finden, aber sie wären nicht länger "Haupt". $a_{1:M}$

Eigenvektoren können aus jeder quadratischen Matrix berechnet werden und müssen nicht orthogonal sein. Da jedoch jede geeignete Kovarianzmatrix symmetrisch ist und symmetrische Matrizen orthogonale Eigenvektoren aufweisen, führt PCA immer zu orthogonalen Komponenten.

Die Orthogonalität von und folgt nicht nur aus der Anforderung, dass - sie folgt aus allen Bedingungen zusammen. Es ist leicht zu erkennen, warum die Orthogonalität von und nicht ausreicht, da die ursprüngliche Basis in der die Daten ausgedrückt werden, ebenfalls orthogonal ist. ZB in 2 Dimensionen hätten Sie und und Ihre Daten müssen dies eindeutig nicht entlang dieser Dimensionen unkorreliert sein (wenn dies der Fall wäre, würde Ihre PCA nur die ursprüngliche Basis bis zu einem Skalierungsfaktor zurückgeben). $y_1$ $y_2$ $a_1^Ta_2=0$ $a_1$ $a_2$ $\mathbf{b}$ $b_1=\begin{bmatrix}1\\ 0 \end{bmatrix}$ $b_2=\begin{bmatrix}0\\ 1 \end{bmatrix}$

Der Text ist etwas umständlich formuliert, aber ich denke, das "was" in "das sicherstellt ..." bezieht sich auf die gesamte vorhergehende Klausel.

— Ruben van Bergen
quelle

Vielen Dank für den großartigen Beitrag. Ich denke, ich verstehe, dass Sie zwei Punkte näher erläutern können: 1. Wie die Bedingungen die Orthogonalität von und sicherstellen und 2. wie Orthogonalität dann zu den Variablen führt unkorreliert sein? Vielleicht anhand eines Beweises oder eines Beispiels?

y_{1}

$y_{1}$

y_{2}

$y_{2}$

— Pavan Sangha