Eine einfache und dennoch sorgfältige Erklärung der Analyse von PCA vs. Faktor anhand von Streudiagrammen in logischen Schritten. (Ich danke @amoeba, der mich in seinem Kommentar zu der Frage ermutigt hat, eine Antwort zu posten, anstatt Links zu anderen Stellen zu erstellen. Hier ist also eine kurze, verspätete Antwort.)
PCA als variable Zusammenfassung (Merkmalsextraktion)
Ich hoffe, Sie haben bereits Verständnis für PCA. Jetzt wiederzubeleben.
Angenommen, wir haben korrelierende Variablen und . Wir zentrieren sie (subtrahieren den Mittelwert) und zeichnen ein Streudiagramm. Dann führen wir eine PCA für diese zentrierten Daten durch. PCA ist eine Form der Achsendrehung, bei der die Achsen P1 und P2 anstelle von V1 und V2 angeboten werden. Die Schlüsseleigenschaft von PCA besteht darin, dass P1 - als erste Hauptkomponente bezeichnet - so ausgerichtet wird, dass die Varianz der Datenpunkte entlang der Komponente maximiert wird. Die neuen Achsen sind neue Variablen, deren Werte berechenbar sind, solange wir die Rotationskoeffizienten (PCA liefert sie) [ Gl. 1 ]:V1V2a
P1=a11V1+a12V2
P2=a21V1+a22V2
Diese Koeffizienten sind Rotationskosinusse (= Richtungskosinusse, Hauptrichtungen) und umfassen sogenannte Eigenvektoren, während Eigenwerte der Kovarianzmatrix die Hauptkomponentenvarianzen sind. In PCA verwerfen wir normalerweise schwache letzte Komponenten. Auf diese Weise fassen wir die Daten nach wenigen zuerst extrahierten Komponenten zusammen, ohne dass dabei Daten verloren gehen.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
Mit unseren aufgezeichneten Daten, P1-Komponentenwerten (Scores) P1 = .73543*V1 + .67761*V2
und Komponente P2 verwerfen wir. P1 der Varianz ist 1.75756
, der erste Eigenwert der Kovarianzmatrix, und so P1 erklärt 86.5%
die Gesamtvarianz , die gleich .(1.07652+.95534) = (1.75756+.27430)
PCA als variable Vorhersage ("latentes" Merkmal)
Wir haben also P2 verworfen und erwarten, dass P1 allein die Daten angemessen darstellen kann. Das ist gleichbedeutend damit, dass und ziemlich gut "rekonstruieren" oder vorhersagen kann [ Gl. 2 ]:P1 V1V2
V1=a11P1+E1
V2=a12P1+E2
wo Koeffizienten sind, was wir bereits wissen, und sind die Fehler (Unvorhersehbarkeit). Dies ist eigentlich ein "Regressionsmodell", bei dem beobachtete Variablen durch die latente Variable vorhergesagt (zurück) werden (wenn eine Komponente als "latente" bezeichnet werden soll). P1 wird aus denselben Variablen extrahiert. Schauen Sie sich die Handlung Fig.2 an , es ist nichts anderes als Fig.1 , nur detailliert:aE
Die P1-Achse wird mit ihren Werten (P1-Punktzahlen) in Grün nebeneinander dargestellt (diese Werte sind die Projektionen von Datenpunkten auf P1). Einige beliebige Datenpunkte wurden mit A, B, ... bezeichnet, und ihre Abweichung (Fehler) von P1 sind fettgedruckte schwarze Anschlüsse. Für Punkt A werden Details gezeigt: Die Koordinaten der P1-Punktzahl (grünes A) auf den V1- und V2-Achsen sind die P1-rekonstruierten Werte von V1 und V2 gemäß Gleichung 2 , und . Die Rekonstruktionsfehler und werden ebenfalls in beige angezeigt. Die quadrierte Länge des "Fehler" -Anschlusses ist nach Pythagoräer die Summe der beiden quadrierten Fehler.V1^=a11P1V2^=a12P1E1=V1−V1^E2=V2−V2^
Nun, was charakteristisch für PCA ist , dass , wenn wir E1 und E2 für jeden Punkt in den Daten berechnen und zeichnen Sie diese Koordinaten - also machen den Scatterplot der Fehler allein, die Wolke „Fehlerdaten“ mit der verworfenen Komponente P2 übereinstimmt. Und das ist auch so: Die Wolke wird auf dem gleichen Bild wie die beige Wolke dargestellt - und Sie sehen, dass sie tatsächlich die Achse P2 (von 1 ) bildet, die mit P2-Komponentenwerten gekachelt ist.
Kein Wunder, könnte man sagen. Es ist so offensichtlich: In PCA ist die verworfene (n) Junior-Komponente (n) genau das, was (die) in den Vorhersagefehlern E zerlegt (zerlegen), in dem Modell, das (die) ursprüngliche Variablen V durch das (die) latente (n) Merkmal (e) P1 erklärt (wieder herstellt). Fehler E bilden zusammen nur die ausgelassene (n) Komponente (n). Hier beginnt sich die Faktorenanalyse von der PCA zu unterscheiden.
Die Idee der gemeinsamen FA (latentes Merkmal)
Formal ist das Modell zur Vorhersage von Manifestvariablen durch die extrahierten latenten Merkmale in FA dasselbe wie in PCA. [ Gl. 3 ]:
V1=a1F+E1
V2=a2F+E2
wobei F der latente gemeinsame Faktor ist , der aus den Daten extrahiert wurde und das ersetzt, was P1 in Gleichung 2 war . Der Unterschied im Modell besteht darin, dass in FA im Gegensatz zu PCA die Fehlervariablen (E1 und E2) nicht miteinander korreliert sein müssen .
Exkurs . Hier möchte ich plötzlich die Geschichte unterbrechen und eine Vorstellung davon machen, welche Koeffizienten . In PCA, sagten wir, waren dies Einträge von Eigenvektoren, die in PCA gefunden wurden (über Eigen- oder Singularwertzerlegung). Während latentes P1 seine native Varianz hatte. Wenn wir P1 auf die Einheitsvarianz normieren, müssen wir dies durch geeignete Skalierung der Koeffizienten kompensieren , um die Gleichung zu unterstützen. Das vergrößerte s nennt man Ladungen ; Sie sind numerisch von Interesse, da sie die Kovarianzen (oder Korrelationen) zwischen den latenten und den beobachtbaren Variablen darstellen und daher bei der Interpretation des latenten Merkmals hilfreich sein können. In beiden Modellen - Gl. 2 und Gl. 3aa a a a a aaa- Sie können frei entscheiden, auf welche Weise die Terme skaliert werden, ohne die Gleichung zu beschädigen. Wenn F (oder P1) wird als Einheit skaliert, ist Belastung; während , wenn F (P1) hat seine native Skala (Varianz) haben, dann entsprechend zu entkalkt werden - in PCA , die Eigenvektor Einträge, aber in FA gleich wird sie verschieden sind und in der Regel werden nicht genannt „Eigenvektoren“. In den meisten Texten auf Faktoranalyse, werden F Varianz so angenommen Are Belastungen . In PCA Literatur wird P1 typischerweise seine wirkliche Varianz diskutiert aufweist und so Eigenvektoren.aaaa
OK, zurück zum Thread. E1 und E2 sind in der Faktoranalyse nicht korreliert; Sie sollten daher eine Fehlerwolke bilden, die entweder rund oder elliptisch, aber nicht diagonal ausgerichtet ist. In der PCA bildete ihre Wolke eine gerade Linie, die mit der diagonal verlaufenden P2 übereinstimmte. Beide Ideen werden auf dem Bild gezeigt:
Beachten Sie, dass Fehler in FA runde (nicht diagonal verlängerte) Wolken sind. Der Faktor (latent) in FA ist etwas anders ausgerichtet, dh es ist nicht die erste Hauptkomponente, die in PCA "latent" ist. Auf dem Bild ist die Faktorlinie merkwürdig konisch - am Ende wird klar, warum.
Was bedeutet dieser Unterschied zwischen PCA und FA? Variablen korreliert, was sich in der diagonal elliptischen Form der Datenwolke zeigt. P1 hat die maximale Varianz abgeschöpft, sodass die Ellipse auf P1 gerichtet ist. Infolgedessen erklärte P1 selbst die Korrelation; aber es hat die existierende Menge an Korrelation nicht angemessen erklärt; es schien die Variation der Datenpunkte zu erklären , nicht die Korrelation. Tatsächlich hat es die Korrelation überbewertet, woraus das Auftreten der diagonalen, korrelierten Fehlerwolke resultierte, die das Überbewerten kompensiert. P1 allein kann die Stärke der Korrelation / Kovariation nicht umfassend erklären. Faktor F kannMach es alleine; und die Bedingung, wenn es dazu in der Lage ist, ist genau, wo Fehler gezwungen werden können, unkorreliert zu sein. Da die Fehlerwolke rund ist, ist keine Korrelation - positiv oder negativ - geblieben, nachdem der Faktor extrahiert wurde, daher ist es der Faktor, der alles überflogen hat.
Als Dimensionsreduktion erklärt PCA die Varianz , erklärt aber die Korrelationen ungenau. FA erklärt Zusammenhänge , kann aber (aufgrund der üblichen Faktoren) nicht so viele Datenvariationen wie PCA berücksichtigen. Faktor (en) in FA berücksichtigen den Teil der Variabilität, der der Nettokorrelationsanteil ist, der als Kommunalität bezeichnet wird ; und daher können Faktoren als reale, jedoch nicht beobachtbare Kräfte / Merkmale / Eigenschaften interpretiert werden, die sich "in" oder "hinter" den Eingabevariablen verstecken, um sie zu korrelieren. Weil sie die Korrelation mathematisch gut erklären. Die Hauptkomponenten (nur wenige erste) erklären es mathematisch nicht so gut und können daher nur an einigen Stellen und vorläufig als "latentes Merkmal" (oder so) bezeichnet werden .
Die Multiplikation von Ladungen ist das, was Korrelation oder Korrelation in Form von Kovarianz erklärt (wiederherstellt) - wenn die Analyse auf einer Kovarianzmatrix (wie in unserem Beispiel) und nicht auf einer Korrelationsmatrix basiert. Die Faktorenanalyse, die ich mit den Daten durchgeführt habe, ergab a_1=.87352, a_2=.84528
, dass das Produkt a_1*a_2 = .73837
fast der Kovarianz entspricht .73915
. Andererseits wurden PCA-Ladungen a1_1=.97497, a1_2=.89832
, also erheblich a1_1*a1_2 = .87584
überschätzt .73915
.
Nachdem wir den wichtigsten theoretischen Unterschied zwischen PCA und FA erklärt haben, kehren wir zu unseren Daten zurück, um die Idee zu veranschaulichen.
FA: ungefähre Lösung (Faktorwerte)
Unten ist die Scatterplot der Ergebnisse der Analyse zeigen , dass wir vorläufig „suboptimal Faktoranalyse“, rufen werden Abb.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Siehe Abweichungen von Fig . 2 der PCA. Die beige Wolke der Fehler ist nicht rund, sondern diagonal elliptisch - und doch offenbar viel dicker als die dünne diagonale Linie, die bei PCA aufgetreten ist. Beachten Sie auch, dass die Fehleranschlüsse (für einige Punkte angezeigt) nicht mehr parallel sind (in PCA waren sie definitionsgemäß parallel zu P2). Wenn Sie zum Beispiel die Punkte "F" und "E" betrachten, die spiegelsymmetrisch über der F- Achse des Faktors liegen , werden Sie darüber hinaus unerwartet feststellen, dass ihre entsprechenden Faktorwerte sehr unterschiedliche Werte sind. Mit anderen Worten, Faktor-Scores sind nicht nur linear transformierte Hauptkomponenten-Scores: Faktor F wird auf seine eigene Art und Weise gefunden, die sich von der von P1 unterscheidet. Und ihre Achsen stimmen nicht vollständig überein, wenn sie im selben Diagramm dargestellt sind. Abb.4 :
Abgesehen davon, dass sie ein bisschen anders orientiert sind, ist F (wie mit Punkten gekachelt) kürzer, dh es macht eine geringere Varianz aus als P1. Wie bereits erwähnt, berücksichtigt der Faktor nur die Variabilität, die für die Korrelation von V1 V2 verantwortlich ist, dh den Anteil der Gesamtvarianz, der ausreicht, um die Variablen von der ursprünglichen Kovarianz 0
zur tatsächlichen Kovarianz zu bringen .73915
.
FA: optimale Lösung (wahrer Faktor)
Eine optimale Faktorlösung ist, wenn die Fehler rund sind oder keine diagonale elliptische Wolke: E1 und E2 sind vollständig unkorreliert . Die Faktorenanalyse liefert tatsächlich eine solche optimale Lösung. Ich habe es nicht auf einem einfachen Streudiagramm wie dem oben gezeigten gezeigt. Warum habe ich? - denn es wäre doch das interessanteste gewesen.
Der Grund ist, dass es unmöglich ist, auf einem Streudiagramm ausreichend zu zeigen, selbst wenn ein 3D-Diagramm übernommen wird. Theoretisch ist das ein ziemlich interessanter Punkt. Um E1 und E2 vollständig unkorreliert zu machen, scheinen alle diese drei Variablen F, E1, E2 nicht in dem durch V1, V2 definierten Raum (Ebene) zu liegen ; und die drei müssen unkorreliert sein . Ich glaube, dass es möglich ist, ein solches Streudiagramm in 5D zu zeichnen (und vielleicht mit ein wenig Spielerei - in 4D), aber wir leben leider in der 3D-Welt. Faktor F muss sowohl mit E1 als auch mit E2 unkorreliert sein (während beide ebenfalls unkorreliert sind), da F die einzige (saubere) und vollständige Korrelationsquelle in den beobachteten Daten sein soll. Die Faktoranalyse teilt die Gesamtvarianz derp
Eingabevariablen in zwei nicht korrelierte (nicht überlappende) Teile: den Kommunalitätsteil ( m
-dimensional, wo m
gemeinsame Faktoren herrschen) und den Eindeutigkeitsteil ( p
-dimensional, wo Fehler, auch eindeutige Faktoren genannt, nicht miteinander korreliert sind).
Verzeihung, dass wir hier nicht den wahren Faktor unserer Daten in einem Streudiagramm darstellen. Es könnte über Vektoren im "Subjektraum", wie hier gemacht, ziemlich gut visualisiert werden, ohne Datenpunkte zu zeigen.
Oben im Abschnitt "Die Idee des gemeinsamen FA (latentes Merkmal)" habe ich den Faktor (Achse F) als Keil angezeigt, um zu warnen, dass die Achse des wahren Faktors nicht in der Ebene V1 V2 liegt. Dies bedeutet, dass - im Gegensatz zur Hauptkomponente P1 - der Faktor F als Achse keine Drehung der Achse V1 oder V2 in ihrem Raum ist und F als Variable keine lineare Kombination der Variablen V1 und V2 ist. Daher wird F so modelliert (aus den Variablen V1 und V2 extrahiert), als ob es sich um eine äußere, unabhängige Variable und nicht um eine Ableitung derselben handelt. Gleichungen wie Gleichung 1, ab der PCA beginnt, sind nicht anwendbar, um den wahren (optimalen) Faktor in der Faktoranalyse zu berechnen , wohingegen formal isomorphe Gleichungen Gleichung 2 und Gleichung 3gelten für beide Analysen. Das heißt, in PCA-Variablen generieren Komponenten und Komponenten prognostizieren Variablen zurück; in FA - Faktor (en) erzeugen / Variablen vorhersagen, und nicht zurück - gemeinsames Faktor Modell geht davon aus konzeptionell so , obwohl technisch Faktoren aus den beobachteten Variablen extrahiert werden.
Nicht nur der wahre Faktor ist keine Funktion der Manifestvariablen, auch die Werte des wahren Faktors sind nicht eindeutig definiert . Mit anderen Worten, sie sind einfach unbekannt. Dies alles ist auf die Tatsache zurückzuführen, dass wir uns im übermäßigen 5D-Analysebereich und nicht im 2D-Ausgangsbereich der Daten befinden. Für uns gibt es nur gute Annäherungen (es gibt eine Reihe von Methoden ) an wahre Faktorwerte, sogenannte Faktor-Scores . Faktor-Scores liegen in der Ebene V1 V2, wie die Hauptkomponenten-Scores auch, sie werden als lineare Funktionen von V1, V2 berechnet und waren es auchdas habe ich im Abschnitt "FA: Näherungslösung (Faktorwerte)" eingetragen. Hauptkomponentenbewertungen sind wahre Komponentenwerte; Faktorwerte sind nur eine vernünftige Annäherung an die unbestimmten wahren Faktorwerte.
FA: Zusammenfassung des Verfahrens
Zu einem kleinen Gerinnsel zusammenfassen, was in den beiden vorhergehenden Abschnitten gesagt wurde, und letzte Striche hinzufügen. Tatsächlich kann FA ( wenn Sie es richtig machen und auch Datenannahmen sehen ) die Lösung des wahren Faktors finden (mit "wahr" meine ich hier optimal für die Datenstichprobe). Es gibt jedoch verschiedene Extraktionsmethoden (sie unterscheiden sich in einigen von ihnen auferlegten sekundären Einschränkungen). Die wahre Faktor Lösung ist bis Beladungen nur. Somit sind Ladungen von optimalen, wahren Faktoren. Faktorwerte - falls erforderlich - können auf verschiedene Weise aus diesen Belastungen berechnet werden und geben Annäherungen an die Faktorwerte zurück.a
Somit basierte die von mir im Abschnitt "FA: Näherungslösung (Faktorwerte)" angezeigte "Faktorlösung" tatsächlich auf optimalen Belastungen, dh auf wahren Faktoren. Aber die Ergebnisse waren vom Schicksal her nicht optimal. Die Bewertungen werden wie die Komponentenbewertungen als lineare Funktion der beobachteten Variablen berechnet, sodass beide auf einem Streudiagramm verglichen werden können, und ich habe es in didaktischer Verfolgung getan, um zu zeigen, wie ein schrittweiser Übergang von der PCA-Idee zur FA-Idee.
Man muss vorsichtig sein, wenn man auf dem gleichen Biplot Faktorladungen mit Faktorbewertungen im "Raum der Faktoren" plottet , sich bewusst sein, dass Ladungen sich auf wahre Faktoren beziehen, während sich Bewertungen auf Ersatzfaktoren beziehen (siehe meine Kommentare zu dieser Antwort in diesem Thread).
Die Rotation von Faktoren (Belastungen) hilft bei der Interpretation der latenten Merkmale. Das Drehen von Lasten kann auch in PCA erfolgen, wenn Sie PCA als Faktoranalyse verwenden (dh PCA als variable Vorhersage ansehen). PCA tendiert dazu, mit zunehmender Anzahl von Variablen in den Ergebnissen mit FA zu konvergieren (siehe den äußerst umfangreichen Thread zu praktischen und konzeptuellen Ähnlichkeiten und Unterschieden zwischen den beiden Methoden). Siehe meine Liste der Unterschiede zwischen PCA und FA am Ende dieser Antwort . Schritt für Schritt Berechnungen von PCA vs FA auf Iris - Datensatz gefunden werden hier . Es gibt eine beträchtliche Anzahl guter Links zu den Antworten anderer Teilnehmer zu dem Thema außerhalb dieses Threads. Es tut mir leid, dass ich in der aktuellen Antwort nur wenige davon verwendet habe.
Siehe auch eine Aufzählung der Unterschiede zwischen PCA und FA hier .