Angenommen, ich wähle eine Linearkombination dieser Variablen - z. B. Kann ich herausfinden, wie stark die beschriebenen Daten variieren ?A + 2 B + 5 C
Diese Frage kann auf zwei verschiedene Arten verstanden werden, was zu zwei verschiedenen Antworten führt.
Eine lineare Kombination entspricht einem Vektor, der in Ihrem Beispiel . Dieser Vektor definiert wiederum eine Achse im 6D-Raum der ursprünglichen Variablen. Was Sie fragen, ist, wie viel Varianz beschreibt die Projektion auf dieser Achse? Die Antwort erfolgt über den Begriff "Rekonstruktion" der Originaldaten aus dieser Projektion und die Messung des Rekonstruktionsfehlers (siehe Wikipedia über den Anteil der nicht erklärten Varianz ). Es hat sich herausgestellt, dass diese Rekonstruktion auf zwei verschiedene Arten durchgeführt werden kann, wobei zwei verschiedene Antworten erhalten werden.[ 1 , 2 , 5 , 0 , 0 , 0 ]
Ansatz Nr. 1
Let sein , die zentrierter Datensatz ( Zeilen entsprechen Samples, Spalten entsprechen Variablen), sei seine Kovarianzmatrix und sei ein Einheitsvektor aus . Die Gesamtvarianz des Datensatzes ist die Summe aller Varianzen, dh die Spur der Kovarianzmatrix: . Die Frage ist: Welcher Anteil von macht n d Σ w R d d T = t r ( Σ ) T w X w T R 2 f i r s t = V a r ( X w )XndΣwRddT= T r ( Σ )Twbeschreiben? Die beiden von @todddeluca und @probabilityislogic gegebenen Antworten sind gleichbedeutend mit: berechne die Projektion , berechne ihre Varianz und dividiere durch :X wT
R2fi r s t= V a r ( X w )T= w⊤Σ wt r (Σ).
Dies ist möglicherweise nicht sofort offensichtlich, da beispielsweise @probabilityislogic vorschlägt, die Rekonstruktion und dann zu berechnen aber mit ein wenig Algebra kann gezeigt werden, dass dies ein äquivalenter Ausdruck ist.‖ X ‖ 2 - ‖ X - X w w ⊤ ‖ 2X w w⊤
∥ X ∥2- ∥ X - X w w⊤∥2∥ X ∥2,
Ansatz 2
Okay. Betrachten Sie nun folgendes Beispiel: ist ein Datensatz mit einer Kovarianzmatrix und ist einfach ein Vektor: d = 2 Σ = ( 1 0.99 0.99 1 ) w = ( 1 0 ) ⊤ xXd= 2
Σ = ( 10,990,991)
w =( 10)⊤x
Die Gesamtvarianz beträgt . Die Varianz der Projektion auf (in roten Punkten dargestellt) ist gleich . Entsprechend der obigen Logik ist die erklärte Varianz gleich . Und in gewissem Sinne ist es so: Rote Punkte ("Rekonstruktion") sind weit von den entsprechenden blauen Punkten entfernt, so dass ein Großteil der Varianz "verloren" geht.w 1 1 / 2T= 2w11 / 2
Andererseits haben die beiden Variablen eine Korrelation von und sind daher nahezu identisch. zu sagen, dass einer von ihnen nur der Gesamtvarianz beschreibt, ist seltsam, weil jeder von ihnen "fast alle Informationen" über den zweiten enthält. Wir können es wie folgt formalisieren: Geben Sie Projektion , finden Sie eine bestmögliche Rekonstruktion wobei nicht unbedingt mit identisch ist , und berechnen Sie dann den Rekonstruktionsfehler, und schließen Sie ihn an Ausdruck für den Anteil der erklärten Varianz: wobei so gewählt ist, dass50 % X w X w v ⊤ v w R 2 s e c o n d = ‖ X ‖ 2 - ‖ X - X w v ⊤ ‖ 20,9950 %X wX w v⊤vw
R2s e c o n d= ∥ X ∥2- ∥ X - X w v⊤∥2∥ X ∥2,
v∥ X - X w v⊤∥2 ist minimal (dh ist maximal). Dies ist genau äquivalent zu der Berechnung des multivariaten Regressions ursprünglichen Datensatz Vorhersage von den - dimensionalen Projektions .
R2R2X1X w
Es ist eine Frage der einfachen Algebra, eine Regressionslösung für zu verwenden, um herauszufinden, dass sich der gesamte Ausdruck zu vereinfacht.Im obigen Beispiel entspricht dies , was vernünftig erscheint.v
R2s e c o n d= ∥ ∥ w ∥2w⊤Σ w ⋅ t r ( Σ ).
0,9901
Es ist zu beachten, dass wenn (und nur wenn) einer der Eigenvektoren von , dh eine der Hauptachsen, mit dem Eigenwert (so dass ), beide Ansätze zur Berechnung von fallen zusammen und reduzieren sich auf den bekannten PCA-AusdruckwΣλΣ w = λ wR2
R2P C A= R2fi r s t= R2s e c o n d= Λ / t r ( Σ ) = λ / Σ λich.
PS. Siehe meine Antwort hier für eine Anwendung der abgeleiteten Formel auf den Spezialfall, dass einer der Basisvektoren ist: Varianz der Daten, die durch eine einzelne Variable erklärt werden .w
Blinddarm. Herleitung der Formel fürR2s e c o n d
Es ist ein Regressionsproblem, die Rekonstruktion zu minimieren (mit als univariatem Prädiktor und als multivariater Antwort). Ihre Lösung ist gegeben durchv∥ X - X w v⊤∥2X wX
v⊤= ( ( X w )⊤( X w ) )- 1( X w )⊤X =( w⊤Σ w )- 1w⊤Σ .
Als nächstes kann die Formel vereinfacht werden als aufgrund des Satzes von Pythagoras, weil die Hutmatrix in der Regression eine ist orthogonale Projektion (aber es ist auch einfach, direkt zu zeigen).R2
R2= ∥ X ∥2- ∥ X - X w v⊤∥2∥ X ∥2= ∥ X w v⊤∥2∥ X ∥2
Wenn wir nun die Gleichung für , erhalten wir für den Zähler:v
∥ X w v⊤∥2= T r ( X w v⊤( X w v⊤)⊤) = T r ( X w w⊤Σ Σ w w⊤X⊤) / ( w⊤Σ w )2= T r ( w⊤Σ Σ w ) / ( w⊤Σ w ) = ∥ ∥ w ∥2/ ( w⊤Σ w ) .
Der Nenner ist gleich was zu der oben angegebenen Formel führt.∥ X ∥2= T r ( Σ )