Ich werde mit einer intuitiven Demonstration beginnen.
Ich generierte Beobachtungen (a) aus einer stark nicht-Gaußschen 2D-Verteilung und (b) aus einer 2D-Gaußschen Verteilung. In beiden Fällen habe ich die Daten zentriert und die Singulärwertzerlegung X = U S V ⊤ durchgeführt . Dann machte ich für jeden Fall ein Streudiagramm der ersten beiden Spalten von U , eine gegen die andere. Man beachte , dass es in der Regel Spalten von U S die „principal components“ (PC) bezeichnet werden; Spalten vonn = 100X = U S V⊤UU Ssind PCs, die auf Einheitennorm skaliert sind. noch, ich in dieser Antwort auf Spalten am Fokussierung U . Hier sind die Streudiagramme:UU
Ich denke, dass Aussagen wie "PCA-Komponenten sind unkorreliert" oder "PCA-Komponenten sind abhängig / unabhängig" normalerweise in Bezug auf eine bestimmte Stichprobenmatrix und sich auf die Korrelationen / Abhängigkeiten zwischen Zeilen beziehen (siehe z. B. die Antwort von @ ttnphns hier ). PCA liefert eine transformierte Datenmatrix U , in der Zeilen Beobachtungen und Spalten PC-Variablen sind. Dh wir können U als Beispiel betrachten und fragen, wie die Beispielkorrelation zwischen PC-Variablen ist. Diese Probenkorrelationsmatrix ist natürlich gegeben durchXUUU⊤U = ichDies bedeutet, dass die Beispielkorrelationen zwischen PC-Variablen Null sind. Dies ist, was die Leute meinen, wenn sie sagen, dass "PCA die Kovarianzmatrix diagonalisiert" usw.
Schlussfolgerung 1: In PCA-Koordinaten haben alle Daten keine Korrelation.
Dies gilt für die beiden obigen Streudiagramme. Es ist jedoch sofort offensichtlich, dass die beiden PC-Variablen und y im linken (nicht-Gaußschen) Streudiagramm nicht unabhängig sind. Obwohl sie keine Korrelation haben, sind sie stark abhängig und tatsächlich durch a y ≈ a ( x - b ) 2 verbunden . Und in der Tat ist bekannt, dass unkorreliert nicht unabhängig bedeutet .xyy≈ a ( x - b )2
Im Gegenteil, die beiden PC-Variablen und y im rechten (Gaußschen) Streudiagramm scheinen "ziemlich unabhängig" zu sein. Das Berechnen der gegenseitigen Information zwischen ihnen (was ein Maß für die statistische Abhängigkeit ist: Unabhängige Variablen haben keine gegenseitige Information) mit jedem Standardalgorithmus ergibt einen Wert, der sehr nahe bei Null liegt. Es wird nicht genau null sein, da es für eine endliche Stichprobengröße niemals genau null ist (es sei denn, es wird eine Feinabstimmung vorgenommen). Darüber hinaus gibt es verschiedene Methoden, um die gegenseitige Information zweier Stichproben zu berechnen und dabei leicht unterschiedliche Antworten zu erhalten. Wir können jedoch davon ausgehen, dass jede Methode eine Schätzung der gegenseitigen Informationen liefert, die sehr nahe bei Null liegt.xy
Schlussfolgerung 2: In PCA-Koordinaten sind die Gaußschen Daten "ziemlich unabhängig", was bedeutet, dass die Standardschätzungen der Abhängigkeit bei Null liegen werden.
Die Frage ist jedoch schwieriger, wie die lange Kette von Kommentaren zeigt. Tatsächlich weist @whuber Recht, dass PCA Variablen und y (Spalten von U ) muss statistisch abhängig sein: die Spalten zu der Einheitslänge haben und orthogonal sein, und dies stellt eine Abhängigkeit. Wenn beispielsweise ein Wert in der ersten Spalte gleich 1 ist , muss der entsprechende Wert in der zweiten Spalte 0 sein .xyU10
Dies ist wahr, aber nur für sehr kleine praktisch relevant , wie z. B. n = 3 (mit n = 2 nach dem Zentrieren gibt es nur einen PC). Für jede vernünftige Stichprobengröße, wie z. B. n = 100 in meiner obigen Abbildung, ist der Effekt der Abhängigkeit vernachlässigbar. Spalten von U sind (skalierte) Projektionen von Gaußschen Daten, daher sind sie auch Gaußsche, was es praktisch unmöglich macht, dass ein Wert nahe bei 1 liegt (dies würde alle anderen n - 1 erfordern)nn = 3n = 2n = 100U1n - 1 Elemente nahe , was kaum der Fall ist eine Gaußsche Verteilung).0
Schlussfolgerung 3: Genau genommen sind die Gaußschen Daten in PCA-Koordinaten für jedes endliche abhängig; Diese Abhängigkeit ist jedoch für niemanden von Bedeutungn .n ≤ 1
Wir können dies präzisieren, indem man bedenkt , was in der Grenze geschieht . In der Grenze der unendlichen Stichprobengröße ist die Stichproben-Kovarianzmatrix gleich der Populations-Kovarianzmatrix Σ . Wenn also der Datenvektor X wird aus abgetastete → X ~ N ( 0 , Σ ) , dann sind die Variablen PC → Y = Λ - 1 / 2 V ⊤ → X / ( n - 1 ) (wobei Λ und Vn → ∞ΣXX⃗ ∼ N( 0 , Σ )Y.⃗ = Λ- 1 / 2V⊤X⃗ / (N-1)ΛVsind Eigenwerte und Eigenvektoren von ) und → Y ∼ N ( 0 , I / ( n - 1 ) ) . Dh PC-Variablen stammen aus einem multivariaten Gaußschen mit diagonaler Kovarianz. Aber jeder multivariate Gauß mit diagonaler Kovarianzmatrix zerfällt in ein Produkt von univariaten Gaußschen, und dies ist die Definition der statistischen Unabhängigkeit :ΣY.⃗ ∼ N( 0 , I / ( n - 1 ) )
N( 0 , d i ein g ( σ2ich) )= 1( 2 π)k / 2det ( d i a g ( σ2ich) )1 / 2exp[ - x⊤d i a g ( σ2ich) x / 2 ]= 1( 2 π)k / 2( ∏ki = 1σ2ich)1 / 2exp[ - ∑ich= 1kσ2ichx2ich/ 2 ]= ∏ 1( 2 π)1 / 2σichexp[ - σ2ichx2ich/ 2 ]= ∏ N( 0 , σ2ich) .
n → ∞
U als Zufallsvariable zu betrachten (erhalten aus der Zufallsmatrix)XUich jUk lX
Hier sind alle vier vorläufigen Schlussfolgerungen von oben:
- In PCA-Koordinaten haben alle Daten keine Korrelation.
- In PCA-Koordinaten sind Gauß-Daten "ziemlich unabhängig", was bedeutet, dass die Standardschätzungen der Abhängigkeit bei Null liegen werden.
- nn ≤ 1
- n → ∞