Beide Modelle - Hauptkomponente und gemeinsamer Faktor - sind ähnliche lineare Regressionsmodelle, die beobachtete Variablen durch latente Variablen vorhersagen. Lassen Sie uns die Variablen V1 V2 ... Vp zentrieren und 2 Komponenten / Faktoren FI und FII extrahieren . Dann ist das Modell das Gleichungssystem:
V1=a1IFI+a1IIFII+E1
V2=a2IFI+a2IIFII+E2
...
Vp=…
wobei der Koeffizient a eine Belastung ist, F ein Faktor oder eine Komponente ist und die Variable E Regressionsreste sind. Hier unterscheidet sich das FA-Modell vom PCA-Modell genau dadurch, dass FA die Anforderung auferlegt: Variablen E1 E2 ... Ep (die Fehlerterme, die nicht mit dem F s korreliert sind ) müssen korrelieren nicht miteinander korrelieren ( siehe Bilder ). Diese Fehlervariablen FA nennen "eindeutige Faktoren"; ihre Varianzen sind bekannt ("Eindeutigkeiten"), ihre fallweisen Werte jedoch nicht. Daher werden die Faktorwerte F nur als gute Näherungen berechnet, sie sind nicht genau.
(Eine Matrixalgebra-Darstellung dieses Modells zur Analyse gemeinsamer Faktoren befindet sich in Fußnote 1. )1
Während in PCA die Fehlervariablen aus der Vorhersage verschiedener Variablen frei korrelieren können: Ihnen wird nichts auferlegt. Sie repräsentieren die "Krätze", für die wir die ausgelassenen p-2- Dimensionen verwendet haben. Wir kennen die Werte von E und können daher die Komponentenwerte F als exakte Werte berechnen.
Das war der Unterschied zwischen PCA-Modell und FA-Modell.
Aufgrund des oben beschriebenen Unterschieds ist FA in der Lage, paarweise Korrelationen (Kovarianzen) zu erklären. PCA kann dies im Allgemeinen nicht tun (es sei denn, die Anzahl der extrahierten Komponenten ist = p ); es kann nur die multivariate Varianz 2 erklären . Solange also der Begriff "Faktoranalyse" über das Ziel der Erklärung von Korrelationen definiert wird, gilt PCA2 keine Faktoranalyse. Wenn "Faktoranalyse" breiter definiert ist als eine Methode, die latente "Merkmale" liefert oder vorschlägt, die interpretiert werden könnten, kann PCA als eine spezielle und einfachste Form der Faktoranalyse angesehen werden.
Manchmal - in einigen Datensätzen unter bestimmten Bedingungen - verlässt PCA E Terme, die fast nicht miteinander korrelieren. Dann kann PCA Zusammenhänge erklären und wie FA werden. Bei Datensätzen mit vielen Variablen ist dies nicht ungewöhnlich. Dies veranlasste einige Beobachter zu der Behauptung, dass die PCA-Ergebnisse mit zunehmenden Datenmengen den FA-Ergebnissen nahe kommen. Ich denke nicht, dass es eine Regel ist, aber die Tendenz kann in der Tat sein. Auf jeden Fall ist es aufgrund ihrer theoretischen Unterschiede immer gut, die Methode bewusst auszuwählen. FA ist ein realistischeres Modell, wenn Sie Variablen auf Latente reduzieren möchten, die Sie als echte latente Merkmale betrachten werden, die hinter den Variablen stehen und sie korrelieren lassen.
Wenn Sie jedoch ein anderes Ziel verfolgen: Reduzieren Sie die Dimensionalität, während Sie die Abstände zwischen den Punkten der Datenwolke so weit wie möglich einhalten - PCA ist besser als FA. (Das Verfahren der iterativen mehrdimensionalen Skalierung (MDS) ist jedoch noch besser. PCA entspricht einem nicht- iterativen metrischen MDS.) Wenn Sie sich nicht weiter mit den Entfernungen beschäftigen und nur daran interessiert sind, möglichst viel von der Gesamtvarianz der Daten beizubehalten Möglichst wenig dimensioniert - PCA ist die optimale Wahl.
Faktorenanalyse Datenmodell: V = F A ' + E d i eine g ( u ) , wobei V wirdDaten analysiert (Spalten zentriert oder standardisiert), F istgemeinsamen Faktor Werte (die unbekannten tatsächlichen diejenigen, nicht Faktorwerte) mit Einheit Varianz, A istMatrix gemeinsamer Faktorladungen (Mustermatrix), E isteindeutige Faktorwerte (unbekannt), u ist derVektor der eindeutigen Faktorladungen gleich der Quadratwurzel der Eindeutigkeiten ( u 2 ). Portion1V=FA′+Ediag(u)Vn cases x p variables
Fn x m
Ap x m
En x p
up
u2Einfachheit halberE" bezeichnet werden, wie es in den Formeln steht, die die Antwort eröffnen. könnte einfach als "Ediag(u)
Hauptannahmen des Modells:
- und E- Variablen (gemeinsame bzw. eindeutige Faktoren) haben Mittelwerte und Einheitsvarianzen von Null.
E wird normalerweise als multivariate Norm angenommen, aber F muss im Allgemeinen keine multivariate Norm sein (wenn beide als multivariate Norm angenommen werden, dann gilt VFEEFV werden, gilt dies auch für ).
- Variablen sind nicht miteinander korreliert und nicht mit F- Variablenkorreliert.EF
Aus demModell derAnalysegemeinsamer Faktorenfolgt,dass Ladungen A vonmgemeinsamen Faktoren (m<pVariablen), die auch als A ( m ) bezeichnet werden , die beobachteten Kovarianzen (oder Korrelationen) zwischen den Variablen genau wiedergeben sollten, Σ . So dasswenn Faktoren orthogonal sind, der grundlegendeFaktor Satzbesagtdass2 AA(m)Σ
undΣ≈ Σ +diag(U2),Σ^=AA′Σ≈Σ^+diag(u2)
wobei Σ die Matrix der Kovarianzen reproduziert (oder Korrelationen) mit gemeinsamen Varianzen ( „Kommunalitäten“) auf ihren Diagonalen; und eindeutige Varianzen ("Eindeutigkeiten") - die Varianzen minus Gemeinsamkeiten sind - sind der Vektor u 2 . Die Abweichung von der Diagonale ( ≈ Faktoren, die nicht zu den üblichen Faktoren gehören) ist ausgeprägt. (3) Gemeinden nicht gut beurteilt, ihre Anfangswerte waren schlecht gewesen; (4) Beziehungen sind nicht linear, die Verwendung eines linearen Modells ist fraglich; (5) Das mit der Extraktionsmethode erzeugte Modell "Subtyp" ist für die Daten nicht optimal (siehe Informationen zu verschiedenen Extraktionsmethoden ). Mit anderen Worten, einige FA-Datenannahmen werden nicht vollständig erfüllt.Σ^u2≈ ) ist darauf zurückzuführen, dass es sich bei den Faktoren um ein theoretisches Modell handelt, das Daten generiert, und als solches ist es einfacher als die beobachteten Daten, auf denen es aufgebaut wurde. Die Hauptursachen für die Diskrepanz zwischen den beobachteten und den reproduzierten Kovarianzen (oder Korrelationen) können sein: (1) Anzahl der Faktoren m ist statistisch nicht optimal; (2) Teilkorrelationen (das sindp(p-1)/2
Wie bei normalem PCA werden Kovarianzen durch die Ladungen genau dann reproduziert, wenn m = p (alle Komponenten werden verwendet), und dies schlägt normalerweise fehl, wenn m < p (nur wenige erste Komponenten verbleiben). Der Faktorsatz für PCA lautet:
,Σ=AA′(p)=AA′(m)+AA′(p−m)
Daher sind sowohl -Ladungen als auch abgelegte A ( p - m ) -Ladungen eine Mischung aus Gemeinsamkeiten und Eindeutigkeiten, und beide können nicht einzeln zur Wiederherstellung von Kovarianzen beitragen. Je näher m an p ist , desto besser stellt PCA in der Regel Kovarianzen wieder her, aber kleines m (was oft von unserem Interesse ist) hilft nicht. Dies unterscheidet sich von FA, das ist beabsichtigt Kovarianzen mit recht klein optimale Anzahl von Faktoren wiederherzustellen. Nähert sich A A ' ( p - m ) der Diagonale, so wird PCA wie FA mit AA(m)A(p−m)AA′(p−m) Wiederherstellung aller Kovarianzen. Es passiert gelegentlich mit PCA, wie ich bereits erwähnt habe. Der PCA fehlt jedoch die algorithmische Fähigkeit, eine solche Diagonalisierung zu erzwingen. Es sind FA-Algorithmen, die dies tun.A(m)
FA, nicht PCA, ist ein datengenerierendes Modell: Es geht von wenigen "echten" allgemeinen Faktoren aus (von normalerweise unbekannter Zahl, also probieren Sie m innerhalb eines Bereichs aus), die "wahre" Werte für Kovarianzen generieren. Beobachtete Kovarianzen sind die "wahren" + kleines zufälliges Rauschen. (Aufgrund der durchgeführten Diagonalisierung, die als einzige Wiederherstellung aller Kovarianzen zurückließ, kann das oben genannte Rauschen klein und zufällig sein.) Der Versuch, mehr Faktoren als die optimalen Beträge für einen Überpassungsversuch und nicht unbedingt einen effizienten Überpassungsversuch anzupassen .A(m)
trace(A′A(m))
ΣAA′trace(AA′)trace(A′A)A′A
Dank der Spur zu maximieren - die Varianz erklärt von m Komponenten - PCA wird für Kovarianzen Bilanzierung, da Kovarianz Varianz geteilt wird. In diesem Sinne ist PCA eine "niedrigrangige Approximation" der gesamten Kovarianzmatrix von Variablen. Und vom Standpunkt der Beobachtungen aus gesehen ist diese Näherung die Näherung der Euklidischen-Distanz-Matrix der Beobachtungen (weshalb PCA als metrische MDS bezeichnet wird). Diese Tatsache sollte uns nicht vor der Realität abschirmen, die PCA nicht modelliert Kovarianzmatrix (jede Kovarianz), die von wenigen lebenden latenten Merkmalen erzeugt wird, die für unsere Variablen als transzendent vorstellbar sind, die PCA-Approximation bleibt immanent, auch wenn sie gut ist: Sie ist eine Vereinfachung der Daten.
Wenn Sie Schritt-für-Schritt-Berechnungen in PCA und FA sehen möchten, die kommentiert und verglichen werden sollen, klicken Sie hier .