Belastungen (die nicht mit Eigenvektoren verwechselt werden dürfen) haben folgende Eigenschaften:
- Ihre Quadratsummen innerhalb jeder Komponente sind die Eigenwerte (Varianzen der Komponenten).
- Belastungen sind Koeffizienten in linearer Kombination, die eine Variable durch die (standardisierten) Komponenten vorhersagen.
Sie haben 2 erste PCs aus 4 extrahiert. Matrix der Ladungen und der Eigenwerte:A
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
In diesem Fall sind beide Eigenwerte gleich. Es ist ein seltener Fall in der realen Welt, es heißt, dass PC1 und PC2 die gleiche erklärende "Stärke" haben.
Angenommen, Sie haben auch die Komponentenwerte, Nx2
Matrix , berechnet und diese innerhalb jeder Spalte z-standardisiert (Mittelwert = 0, st. Dev. = 1). Dann (als Punkt 2 oben erklärt), X = C A ' . Aber, da Sie nur 2 PCs von 4 links (dir fehlt 2 weitere Spalten in A ) die Daten wiederhergestellt Werte X nicht genau sind , - es ist ein Fehler (wenn Eigenwerte 3, 4 nicht Null).CX^=CA′AX^
IN ORDNUNG. Mit welchen Koeffizienten lassen sich Komponenten anhand von Variablen vorhersagen ? Wenn voll wäre , wären diese eindeutig B = ( A - 1 ) ' . Mit einer nicht quadratischen Ladematrix können wir sie als B = berechnenA4x4
B=(A−1)′ , wobeiB=A⋅diag(eigenvalues)−1=(A+)′diag(eigenvalues)
ist die quadratische Diagonalmatrix mit den Eigenwerten auf ihrer Diagonale, und der +
hochgestellte Index bezeichnet die Pseudoinverse. In deinem Fall:
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Wenn also eine Matrix ursprünglich zentrierter Variablen ist (oder standardisierte Variablen, wenn Sie PCA auf der Grundlage von Korrelationen und nicht von Kovarianzen durchführen), dann ist C = X B ; C sind standardisierte Hauptkomponentenbewertungen. Welches in Ihrem Beispiel ist:XNx4
C=XBC
PC1 = 0,5 · X1 + 0,5 · X2 + 0,5 · X3 + 0,5 · X4 ~ (X1 + X2 + X3 + X4) / 4
"Die erste Komponente ist proportional zur durchschnittlichen Punktzahl"
PC2 = 0,5 · X1 + 0,5 · X2 - 0,5 · X3 - 0,5 · X4 = (0,5 · X1 + 0,5 · X2) - (0,5 · X3 + 0,5 · X4)
Die zweite Komponente misst die Differenz zwischen dem ersten Bewertungspaar und dem zweiten Bewertungspaar.
In diesem Beispiel schien es, dass , aber im Allgemeinen sind sie unterschiedlich.B=A
Anmerkung : Die obige Formel für die Koeffizienten zur Berechnung der Komponentenwerte lautet: , ist äquivalent zu B = R - 1 A , mit RB=A⋅diag(eigenvalues)−1B=R−1ARist die Kovarianz- (oder Korrelations-) Matrix von Variablen. Die letztere Formel stammt direkt aus der linearen Regressionstheorie. Die beiden Formeln sind nur im PCA-Kontext äquivalent. Bei der Faktoranalyse handelt es sich nicht um Faktorbewertungen, und um Faktorbewertungen (die in FA immer ungefähr sind) zu berechnen, sollte man sich auf die zweite Formel verlassen.
Verwandte Antworten von mir:
Weitere Informationen zu Ladevorgängen im Vergleich zu Eigenvektoren .
Wie Hauptkomponenten-Scores und Faktor-Scores berechnet werden .