Was sind die Unterschiede zwischen der Faktoranalyse und der Hauptkomponentenanalyse?


214

Es scheint, dass einige der statistischen Pakete, die ich verwende, diese beiden Konzepte zusammenfassen. Ich frage mich jedoch, ob es unterschiedliche Annahmen oder Datenformalitäten gibt, die zutreffen müssen, um übereinander verwendet zu werden. Ein echtes Beispiel wäre unglaublich nützlich.


2
Die Kapitel zur Analyse der Hauptkomponenten und zur Faktoranalyse in dem folgenden Buch, das in den meisten Hochschulbibliotheken erhältlich ist, behandeln Ihre Frage genau: apa.org/pubs/books/4316510.aspx
user31256

3
Zusätzlich zu den unten stehenden Antworten können Sie dies und das von mir lesen .
TTNPHNS

2
Und noch eine gute Frage wie " Soll ich PCA oder FA verwenden ? ": Stats.stackexchange.com/q/123063/3277 .
ttnphns

3
@ttnphns: Ich würde Sie ermutigen, eine Antwort in diesem Thread zu veröffentlichen, die möglicherweise aus einer kommentierten Liste Ihrer Antworten in anderen verwandten Threads besteht. Dies könnte Ihre obigen Kommentare ersetzen (derzeit vier Kommentare mit Links) und wäre praktischer, insbesondere wenn Sie jeden Link kurz kommentieren würden. Suchen Sie hier nach einer Erklärung für dieses Problem, suchen Sie dort nach einer Erklärung für dieses Problem usw. Es ist nur ein Vorschlag, aber ich glaube, dieser Thread würde davon sehr profitieren! Ein besonderer Vorteil ist, dass Sie dieser Antwort immer mehr Links hinzufügen können.
Amöbe

2
Eine ähnliche Frage wurde bei MathOverflow gestellt und erhielt eine ausgezeichnete Antwort: mathoverflow.net/questions/40191/…
Daniel Moskovich

Antworten:


156

Die Hauptkomponentenanalyse umfasst das Extrahieren linearer Zusammensetzungen beobachteter Variablen.

Die Faktorenanalyse basiert auf einem formalen Modell, das beobachtete Variablen aus theoretischen latenten Faktoren vorhersagt.

In der Psychologie werden diese beiden Techniken häufig bei der Konstruktion von Tests mit mehreren Maßstäben angewendet, um zu bestimmen, welche Gegenstände auf welche Maßstäbe geladen werden. Sie liefern typischerweise ähnliche inhaltliche Schlussfolgerungen (für eine Diskussion siehe Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Dies hilft zu erklären, warum einige Statistikpakete sie zu bündeln scheinen. Ich habe auch Situationen gesehen, in denen "Hauptkomponentenanalyse" fälschlicherweise als "Faktoranalyse" bezeichnet wird.

In Bezug auf eine einfache Faustregel würde ich vorschlagen, dass Sie:

  1. Führen Sie eine Faktorenanalyse durch, wenn Sie ein theoretisches Modell latenter Faktoren, die beobachtete Variablen verursachen, annehmen oder testen möchten.

  2. Hauptkomponentenanalyse ausführen Wenn Sie Ihre korrelierten beobachteten Variablen einfach auf einen kleineren Satz wichtiger unabhängiger zusammengesetzter Variablen reduzieren möchten.


5
Die Faustregel dort ist sehr nützlich. Dank dafür.
Brandon Bertelsen

1
Zur Faustregel (1): Würde ich ein theoretisches Modell latenter Faktoren nicht eher mit einer Bestätigungsfaktoranalyse als mit einem Erkundungsfaktor testen?
Roman

1
@roman Ja. Mit einem CFA haben Sie viel mehr Kontrolle über das Modell als mit einem EFA. Beispielsweise können Sie Ladungen auf Null beschränken. gleiche Ladungen; haben Residuen korreliert; Faktoren höherer Ordnung hinzufügen; etc.
Jeromy Anglim

3
@ Jeromy Anglim Ist es wirklich richtig zu sagen, dass PCA einen "kleineren Satz wichtiger unabhängiger zusammengesetzter Variablen" erstellt? Oder sollten Sie wirklich "kleinere Menge wichtiger unkorrelierter zusammengesetzter Variablen" sagen? Wenn die in PCA verwendeten zugrunde liegenden Daten nicht normalverteilt (multivariat) sind, sind die reduzierten Dimensionsdaten nur unkorreliert.
FXQuantTrader

1
Der zweite Daumen der Regel ist leicht zu bekommen, aber wie wende ich den ersten an? Klingt vielleicht seltsam, aber wann weiß ich, dass ich ein Faktormodell für beobachtete Variablen ausführen möchte?
Ben

48

Aus meiner Antwort hier:

Befindet sich nach der PCA noch eine Rotation (z. B. Varimax)?

Die Hauptkomponentenanalyse (PCA) und die Common Factor Analysis (CFA) sind unterschiedliche Methoden. Häufig führen sie zu ähnlichen Ergebnissen, und PCA wird als Standardextraktionsmethode in den SPSS-Faktoranalyse-Routinen verwendet. Dies führt zweifellos zu einer Menge Verwirrung über die Unterscheidung zwischen den beiden.

Das Fazit ist, dass es sich konzeptionell um zwei verschiedene Modelle handelt. In PCA sind die Komponenten tatsächliche orthogonale Linearkombinationen, die die Gesamtvarianz maximieren. In FA sind die Faktoren Linearkombinationen, die den gemeinsamen Teil der Varianz maximieren - zugrunde liegende "latente Konstrukte". Deshalb wird FA oft als "Common Factor Analysis" bezeichnet. FA verwendet eine Vielzahl von Optimierungsroutinen und das Ergebnis hängt im Gegensatz zu PCA von der verwendeten Optimierungsroutine und den Startpunkten für diese Routinen ab. Es gibt einfach keine einzige Lösung.

In R bietet die factanal () -Funktion CFA eine maximale Wahrscheinlichkeitsextraktion. Sie sollten also nicht erwarten, dass es ein SPSS-Ergebnis reproduziert, das auf einer PCA-Extraktion basiert. Es ist einfach nicht dasselbe Modell oder dieselbe Logik. Ich bin mir nicht sicher, ob Sie dasselbe Ergebnis erzielen würden, wenn Sie die SPSS-Maximum-Likelihood-Extraktion verwenden, da diese möglicherweise nicht denselben Algorithmus verwenden.

In R können Sie jedoch die vertauschte "Faktoranalyse" reproduzieren, die SPSS standardmäßig bereitstellt. Hier ist der Prozess in R. Mit diesem Code kann ich das Ergebnis der SPSS-Hauptkomponente "Faktoranalyse" mithilfe dieses Datensatzes reproduzieren. (Mit Ausnahme des unbestimmten Zeichens). Dieses Ergebnis könnte dann auch mit einer der verfügbaren Rotationsmethoden von R gedreht werden.

data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)]  %*% 
  diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

5
Beachten Sie, dass Sie mit principal(attitude, 2, rotate="none")dem psychPaket die gleichen Ergebnisse erzielen und dass die Kayser-Regel (ev> 1) nicht die am meisten empfohlene Methode zum Testen der Dimensionalität ist (sie überschätzt die Anzahl der Faktoren).
Chl

5
Ja, ich weiß, dass Psycho-Principal dies abschließt. Mein Ziel war es, zu zeigen, was die SPSS- "Faktoranalyse" bei Verwendung der Extraktionsmethode für Hauptkomponenten tat. Ich stimme zu, dass die Eigenwertregel eine schlechte Möglichkeit ist, die Anzahl der Faktoren auszuwählen. Aber genau das macht SPSS standardmäßig und das habe ich demonstriert.
Brett

1
factanal()bietet EFA nicht CFA. Aus meiner Erfahrung sollte die SPSS-Maximum-Likelihood-Extraktion das gleiche Ergebnis liefern factanal(), da keine schräge Rotation vorliegt.
Pe-Pe-Rry

2
Was bedeutet das Folgende: In FA sind die Faktoren lineare Kombinationen, die den gemeinsamen Anteil der Varianz maximieren - zugrunde liegende "latente Konstrukte". '?
Vermutungen

Es ist auch zu beachten, dass CFA möglicherweise für eine bestätigende FA (im Gegensatz zu einer erklärenden FA ) anstelle einer gemeinsamen FA steht .
Richard Hardy

33

Sie haben Recht mit Ihrem ersten Punkt, obwohl Sie in FA im Allgemeinen mit beidem arbeiten (Einzigartigkeit und Gemeinsamkeit). Die Wahl zwischen PCA und FA ist eine langjährige Debatte unter Psychometrikern. Ich folge jedoch nicht ganz Ihren Punkten. Die Drehung der Hauptachsen kann angewendet werden, unabhängig davon, mit welcher Methode latente Faktoren konstruiert werden. Tatsächlich wird meistens die VARIMAX-Rotation (orthogonale Rotation unter Berücksichtigung unkorrelierter Faktoren) aus praktischen Gründen (einfachste Interpretation, einfachste Bewertungsregeln oder Interpretation von Faktorwerten usw.) verwendet, obwohl die Rotation schief verläuft (z. B. PROMAX) ) könnte wahrscheinlich besser die Realität widerspiegeln (latente Konstrukte sind oft miteinander korreliert), Zumindest in der Tradition von FA, in der Sie davon ausgehen, dass ein latentes Konstrukt tatsächlich im Mittelpunkt der beobachteten Wechselbeziehungen zwischen Ihren Variablen steht. Der Punkt ist, dass PCA, gefolgt von VARIMAX-Rotation, die Interpretation der linearen Kombinationen der ursprünglichen Variablen in der Tradition der "Datenanalyse" etwas verzerrt (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). Der Punkt ist, dass PCA, gefolgt von VARIMAX-Rotation, die Interpretation der linearen Kombinationen der ursprünglichen Variablen in der Tradition der "Datenanalyse" etwas verzerrt (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). Der Punkt ist, dass PCA, gefolgt von VARIMAX-Rotation, die Interpretation der linearen Kombinationen der ursprünglichen Variablen in der Tradition der "Datenanalyse" etwas verzerrt (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). FA-Modelle sind vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten). FA-Modelle sind vorzuziehen, da sie explizit Messfehler berücksichtigen, während sich PCA nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als Linearkombination der Variablen aus, während dies in FA die Variablen sind, die als Linearkombination der Faktoren ausgedrückt werden (einschließlich der Komponenten für Gemeinsamkeiten und Eindeutigkeiten, wie Sie sagten).

Ich empfehle Ihnen, zuerst die folgenden Diskussionen zu diesem Thema zu lesen:


7
Um nur zu sagen, dass meine Antwort möglicherweise ein wenig verwirrend aussieht, da diese Frage mit einer anderen, stats.stackexchange.com/questions/3369/…, zusammengeführt wurde (ich beantworte diese Frage zunächst).
Chl

6
Ah, ich habe mich gefragt, warum Sie mit diesem Quest in dieser Frage verbunden sind ... :)
Brandon Bertelsen

1
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition. Chl, könntest du es erklären? Das ist interessant.
ttnphns

32

Es gibt zahlreiche vorgeschlagene Definitionen im Internet. Hier ist eines aus einem Online-Glossar zum statistischen Lernen :

Hauptkomponentenanalyse

Erstellen neuer Features, die die Hauptkomponenten eines Datensatzes sind. Die Hauptkomponenten sind Zufallsvariablen maximaler Varianz, die aus linearen Kombinationen der Eingabemerkmale gebildet werden. Entsprechend sind dies die Projektionen auf die Hauptkomponentenachsen, die Linien sind, die den durchschnittlichen quadratischen Abstand zu jedem Punkt im Datensatz minimieren. Um die Eindeutigkeit zu gewährleisten, müssen alle Hauptkomponentenachsen orthogonal sein. PCA ist eine Maximum-Likelihood-Technik für die lineare Regression bei Vorhandensein von Gaußschem Rauschen an Ein- und Ausgängen. In einigen Fällen entspricht PCA einer Fourier-Transformation, beispielsweise der bei der JPEG-Bildkomprimierung verwendeten DCT. Siehe "Eigengesichter zur Erkennung" (Turk & Pentland, J. Cognitive Neuroscience 3 (1), 1991), Bishop,

Faktorenanalyse

Eine Verallgemeinerung von PCA, die explizit auf der Maximalwahrscheinlichkeit basiert. Wie bei PCA wird angenommen, dass jeder Datenpunkt durch Abtasten eines Punktes in einem Unterraum und anschließende Störung mit volldimensionalem Gaußschen Rauschen entsteht. Der Unterschied besteht darin, dass die Faktorenanalyse ermöglicht, dass das Rauschen eine beliebige diagonale Kovarianzmatrix aufweist, während PCA annimmt, dass das Rauschen sphärisch ist. Zusätzlich zur Schätzung des Unterraums schätzt die Faktoranalyse die Rauschkovarianzmatrix. Siehe "Der EM-Algorithmus für Gemische von Faktoranalysatoren". Auswahl der Dimensionalität für PCA ".


2
Die Beschreibung der Faktorenanalyse erhält den Hauptpunkt (diagonale Kovarianz), wurde jedoch historisch nicht als Verallgemeinerung der PCA entwickelt.
Vermutungen

1
Im Grunde genommen ist in PCA one svd die Kovarianzmatrix und in FA die Korrelationsmatrix? Es fällt mir immer schwer, die eigentliche Mathematik zu finden, nachdem die Methoden eine Menge Terminologie aus dem Bereich aufgebaut haben, in dem sie angewendet werden. (Off-Topic: Ich brauchte einmal einen ganzen Nachmittag, um zu verstehen, was die Pfadmodellierung ist, bis ich eine (1) Arbeit aus den 70er Jahren fand, in der die Matrixgleichung dahinter steht.)
Mark van der Loo

28

Die erste Antwort in diesem Thread deutet darauf hin, dass PCA eher eine Technik zur Reduzierung der Dimensionalität ist, während FA eher eine Technik mit latenten Variablen ist. Dies ist im engeren Sinne richtig. Aber viele Antworten hier und viele Behandlungen anderswo präsentieren PCA und FA als zwei völlig unterschiedliche Methoden, mit unterschiedlichen, wenn nicht gegensätzlichen Zielen, Methoden und Ergebnissen. Ich stimme dir nicht zu; Ich glaube, wenn PCA als latente Variablentechnik betrachtet wird, ist es der FA ziemlich ähnlich, und sie sollten besser als sehr ähnliche Methoden angesehen werden.

Ich habe im folgenden Thread meine eigene Darstellung der Ähnlichkeiten und Unterschiede zwischen PCA und FA gegeben: Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein? Dort argumentiere ich, dass aus einfachen mathematischen Gründen das Ergebnis von PCA und FA ziemlich ähnlich sein dürfte, nur weil die Anzahl der Variablen nicht sehr klein ist (vielleicht über ein Dutzend). Siehe meine [lange!] Antwort im verlinkten Thread für mathematische Details und Monte-Carlo-Simulationen. Eine viel präzisere Version meines Arguments finden Sie hier: Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?

Hier möchte ich es an einem Beispiel zeigen. Ich werde den Wein-Datensatz aus dem UCI Machine Learning Repository analysieren . Es ist ein ziemlich bekannter Datensatz mit Weinen aus drei verschiedenen Trauben, die durch Variablen beschrieben werden. So sieht die Korrelationsmatrix aus: n=178p=13

Korrelationsmatrix des Wein-Datensatzes

Ich habe sowohl die PCA- als auch die FA-Analyse durchgeführt und 2D-Projektionen der Daten als Biplots für beide in der folgenden Abbildung gezeigt (PCA links, FA rechts). Die horizontalen und vertikalen Achsen zeigen die ersten und zweiten Komponenten- / Faktorwerte. Jeder der Punkte entspricht einem Wein und die Punkte sind entsprechend der Gruppe gefärbt (siehe Legende):n=178

PCA- und FA-Analyse des Weindatensatzes

Die Ladungen der 1. und 2. Komponente / des 2. Faktors auf jede der Originalvariablen sind als schwarze Linien dargestellt. Sie sind gleich Korrelationen zwischen jeder der ursprünglichen Variablen und den beiden Komponenten / Faktoren. Natürlich dürfen die Korrelationen nicht überschreiten , daher sind alle Ladelinien innerhalb des "Korrelationskreises" enthalten, der die maximal mögliche Korrelation anzeigt. Alle Belastungen und der Kreis sind willkürlich um den Faktor skaliert , sonst wären sie zu klein, um gesehen zu werden (der Radius des Kreises ist also und nicht ).p=131331

Beachten Sie, dass es kaum einen Unterschied zwischen PCA und FA gibt! Hier und da gibt es kleine Abweichungen, aber das allgemeine Bild ist fast identisch, und alle Belastungen sind sehr ähnlich und weisen in die gleiche Richtung. Dies ist genau das, was von der Theorie erwartet wurde und ist keine Überraschung; dennoch ist es lehrreich zu beobachten.

PS. Einen viel schöneren PCA-Biplot desselben Datensatzes finden Sie in dieser Antwort von @vqv .

PPS. Während PCA-Berechnungen Standard sind, erfordern FA-Berechnungen möglicherweise einen Kommentar. Faktorladungen wurden durch einen "iterierten Hauptfaktor" -Algorithmus bis zur Konvergenz (9 Iterationen) berechnet, wobei Kommunalitäten mit Teilkorrelationen initialisiert wurden. Sobald die Ladungen konvergierten, wurden die Punktzahlen nach der Bartlett-Methode berechnet. Dies ergibt standardisierte Ergebnisse; Ich skalierte sie um die jeweiligen Faktorabweichungen (gegeben durch Ladungslängen).


1
Mit welcher Software haben Sie die PCA- und Faktoranalyse-Diagramme erstellt?
rnso

1
Ich habe Matlab benutzt. Ich dachte darüber nach, den Code in meine Antwort einzufügen (wie es normalerweise meine Gewohnheit ist), wollte diesen geschäftigen Thread aber nicht noch mehr überladen. Aber wenn ich darüber nachdenke, sollte ich es auf einer externen Website veröffentlichen und hier einen Link hinterlassen. Ich werde das machen.
Amöbe

2
Es ist richtig, dass PCA und FA manchmal und überhaupt nicht selten ähnliche Ergebnisse (Belastungen) liefern, und so kann PCA als ein spezifischer Fall von FA angesehen werden, wenn die Faktorenanalyse breit definiert ist. Dennoch sind FA (sensu stricto) und PCA theoretisch ziemlich unterschiedlich.
TTNPHNS

2
(Forts.) Faktoren sind transzendente latente Merkmale; pr. Komponenten sind immanente Ableitungen. Obwohl Ihre beiden Ladediagramme praktisch ähnlich aussehen, unterscheiden sie sich theoretisch grundlegend. Die Komponentenebene links wurde als Unterraum der Variablen erzeugt, die sich darauf projizieren. Die Faktorebene wurde als ein Raum erzeugt, der sich vom Raum der Variablen unterscheidet, und so projizieren sie sich auf einen "fremden" Raum auf der rechten Handlung.
TTNPHNS

3
(Forts.) Aber das rechte Bild (FA) ist eigentlich kein echter Biplot , sondern eine Überlagerung von zwei unterschiedlichen Streudiagrammen, unterschiedlichen Räumen: das Ladediagramm (wo Achsen wahre Faktoren sind) und das Objektbewertungsdiagramm (wo Achsen sind) die geschätzten Faktoren als Punktzahl). Der wahre Faktorraum überschreitet den "elterlichen" variablen Raum, aber der Faktor bewertet den Raum als seinen Unterraum. Sie haben zwei heterogene Achsenpaare überlagert, aber beide haben die gleichen Bezeichnungen ("Faktor1" und "Faktor2" in beiden Paaren). Dieser Umstand ist stark irreführend und veranlasst uns zu der Annahme , dass es sich um einen echten Biplot wie den linken handelt.
TTNPHNS

25

Eine einfache und dennoch sorgfältige Erklärung der Analyse von PCA vs. Faktor anhand von Streudiagrammen in logischen Schritten. (Ich danke @amoeba, der mich in seinem Kommentar zu der Frage ermutigt hat, eine Antwort zu posten, anstatt Links zu anderen Stellen zu erstellen. Hier ist also eine kurze, verspätete Antwort.)

PCA als variable Zusammenfassung (Merkmalsextraktion)

Ich hoffe, Sie haben bereits Verständnis für PCA. Jetzt wiederzubeleben.

Bildbeschreibung hier eingeben

Angenommen, wir haben korrelierende Variablen und . Wir zentrieren sie (subtrahieren den Mittelwert) und zeichnen ein Streudiagramm. Dann führen wir eine PCA für diese zentrierten Daten durch. PCA ist eine Form der Achsendrehung, bei der die Achsen P1 und P2 anstelle von V1 und V2 angeboten werden. Die Schlüsseleigenschaft von PCA besteht darin, dass P1 - als erste Hauptkomponente bezeichnet - so ausgerichtet wird, dass die Varianz der Datenpunkte entlang der Komponente maximiert wird. Die neuen Achsen sind neue Variablen, deren Werte berechenbar sind, solange wir die Rotationskoeffizienten (PCA liefert sie) [ Gl. 1 ]:V1V2a

P1=a11V1+a12V2

P2=a21V1+a22V2

Diese Koeffizienten sind Rotationskosinusse (= Richtungskosinusse, Hauptrichtungen) und umfassen sogenannte Eigenvektoren, während Eigenwerte der Kovarianzmatrix die Hauptkomponentenvarianzen sind. In PCA verwerfen wir normalerweise schwache letzte Komponenten. Auf diese Weise fassen wir die Daten nach wenigen zuerst extrahierten Komponenten zusammen, ohne dass dabei Daten verloren gehen.

Covariances
        V1       V2 
V1  1.07652   .73915 
V2   .73915   .95534 

----PCA---- 
Eigenvalues      % 
P1  1.75756   86.500 
P2   .27430   13.500 

Eigenvectors
        P1       P2
V1   .73543  -.67761 
V2   .67761   .73543

Mit unseren aufgezeichneten Daten, P1-Komponentenwerten (Scores) P1 = .73543*V1 + .67761*V2und Komponente P2 verwerfen wir. P1 der Varianz ist 1.75756, der erste Eigenwert der Kovarianzmatrix, und so P1 erklärt 86.5%die Gesamtvarianz , die gleich .(1.07652+.95534) = (1.75756+.27430)

PCA als variable Vorhersage ("latentes" Merkmal)

Wir haben also P2 verworfen und erwarten, dass P1 allein die Daten angemessen darstellen kann. Das ist gleichbedeutend damit, dass und ziemlich gut "rekonstruieren" oder vorhersagen kann [ Gl. 2 ]:P1 V1V2

V1=a11P1+E1

V2=a12P1+E2

wo Koeffizienten sind, was wir bereits wissen, und sind die Fehler (Unvorhersehbarkeit). Dies ist eigentlich ein "Regressionsmodell", bei dem beobachtete Variablen durch die latente Variable vorhergesagt (zurück) werden (wenn eine Komponente als "latente" bezeichnet werden soll). P1 wird aus denselben Variablen extrahiert. Schauen Sie sich die Handlung Fig.2 an , es ist nichts anderes als Fig.1 , nur detailliert:aE

Bildbeschreibung hier eingeben

Die P1-Achse wird mit ihren Werten (P1-Punktzahlen) in Grün nebeneinander dargestellt (diese Werte sind die Projektionen von Datenpunkten auf P1). Einige beliebige Datenpunkte wurden mit A, B, ... bezeichnet, und ihre Abweichung (Fehler) von P1 sind fettgedruckte schwarze Anschlüsse. Für Punkt A werden Details gezeigt: Die Koordinaten der P1-Punktzahl (grünes A) auf den V1- und V2-Achsen sind die P1-rekonstruierten Werte von V1 und V2 gemäß Gleichung 2 , und . Die Rekonstruktionsfehler und werden ebenfalls in beige angezeigt. Die quadrierte Länge des "Fehler" -Anschlusses ist nach Pythagoräer die Summe der beiden quadrierten Fehler.V1^=a11P1V2^=a12P1E1=V1V1^E2=V2V2^

Nun, was charakteristisch für PCA ist , dass , wenn wir E1 und E2 für jeden Punkt in den Daten berechnen und zeichnen Sie diese Koordinaten - also machen den Scatterplot der Fehler allein, die Wolke „Fehlerdaten“ mit der verworfenen Komponente P2 übereinstimmt. Und das ist auch so: Die Wolke wird auf dem gleichen Bild wie die beige Wolke dargestellt - und Sie sehen, dass sie tatsächlich die Achse P2 (von 1 ) bildet, die mit P2-Komponentenwerten gekachelt ist.

Kein Wunder, könnte man sagen. Es ist so offensichtlich: In PCA ist die verworfene (n) Junior-Komponente (n) genau das, was (die) in den Vorhersagefehlern E zerlegt (zerlegen), in dem Modell, das (die) ursprüngliche Variablen V durch das (die) latente (n) Merkmal (e) P1 erklärt (wieder herstellt). Fehler E bilden zusammen nur die ausgelassene (n) Komponente (n). Hier beginnt sich die Faktorenanalyse von der PCA zu unterscheiden.

Die Idee der gemeinsamen FA (latentes Merkmal)

Formal ist das Modell zur Vorhersage von Manifestvariablen durch die extrahierten latenten Merkmale in FA dasselbe wie in PCA. [ Gl. 3 ]:

V1=a1F+E1

V2=a2F+E2

wobei F der latente gemeinsame Faktor ist , der aus den Daten extrahiert wurde und das ersetzt, was P1 in Gleichung 2 war . Der Unterschied im Modell besteht darin, dass in FA im Gegensatz zu PCA die Fehlervariablen (E1 und E2) nicht miteinander korreliert sein müssen .

Exkurs . Hier möchte ich plötzlich die Geschichte unterbrechen und eine Vorstellung davon machen, welche Koeffizienten . In PCA, sagten wir, waren dies Einträge von Eigenvektoren, die in PCA gefunden wurden (über Eigen- oder Singularwertzerlegung). Während latentes P1 seine native Varianz hatte. Wenn wir P1 auf die Einheitsvarianz normieren, müssen wir dies durch geeignete Skalierung der Koeffizienten kompensieren , um die Gleichung zu unterstützen. Das vergrößerte s nennt man Ladungen ; Sie sind numerisch von Interesse, da sie die Kovarianzen (oder Korrelationen) zwischen den latenten und den beobachtbaren Variablen darstellen und daher bei der Interpretation des latenten Merkmals hilfreich sein können. In beiden Modellen - Gl. 2 und Gl. 3aa a a a a aaa- Sie können frei entscheiden, auf welche Weise die Terme skaliert werden, ohne die Gleichung zu beschädigen. Wenn F (oder P1) wird als Einheit skaliert, ist Belastung; während , wenn F (P1) hat seine native Skala (Varianz) haben, dann entsprechend zu entkalkt werden - in PCA , die Eigenvektor Einträge, aber in FA gleich wird sie verschieden sind und in der Regel werden nicht genannt „Eigenvektoren“. In den meisten Texten auf Faktoranalyse, werden F Varianz so angenommen Are Belastungen . In PCA Literatur wird P1 typischerweise seine wirkliche Varianz diskutiert aufweist und so Eigenvektoren.aaaa

OK, zurück zum Thread. E1 und E2 sind in der Faktoranalyse nicht korreliert; Sie sollten daher eine Fehlerwolke bilden, die entweder rund oder elliptisch, aber nicht diagonal ausgerichtet ist. In der PCA bildete ihre Wolke eine gerade Linie, die mit der diagonal verlaufenden P2 übereinstimmte. Beide Ideen werden auf dem Bild gezeigt:

Bildbeschreibung hier eingeben

Beachten Sie, dass Fehler in FA runde (nicht diagonal verlängerte) Wolken sind. Der Faktor (latent) in FA ist etwas anders ausgerichtet, dh es ist nicht die erste Hauptkomponente, die in PCA "latent" ist. Auf dem Bild ist die Faktorlinie merkwürdig konisch - am Ende wird klar, warum.

Was bedeutet dieser Unterschied zwischen PCA und FA? Variablen korreliert, was sich in der diagonal elliptischen Form der Datenwolke zeigt. P1 hat die maximale Varianz abgeschöpft, sodass die Ellipse auf P1 gerichtet ist. Infolgedessen erklärte P1 selbst die Korrelation; aber es hat die existierende Menge an Korrelation nicht angemessen erklärt; es schien die Variation der Datenpunkte zu erklären , nicht die Korrelation. Tatsächlich hat es die Korrelation überbewertet, woraus das Auftreten der diagonalen, korrelierten Fehlerwolke resultierte, die das Überbewerten kompensiert. P1 allein kann die Stärke der Korrelation / Kovariation nicht umfassend erklären. Faktor F kannMach es alleine; und die Bedingung, wenn es dazu in der Lage ist, ist genau, wo Fehler gezwungen werden können, unkorreliert zu sein. Da die Fehlerwolke rund ist, ist keine Korrelation - positiv oder negativ - geblieben, nachdem der Faktor extrahiert wurde, daher ist es der Faktor, der alles überflogen hat.

Als Dimensionsreduktion erklärt PCA die Varianz , erklärt aber die Korrelationen ungenau. FA erklärt Zusammenhänge , kann aber (aufgrund der üblichen Faktoren) nicht so viele Datenvariationen wie PCA berücksichtigen. Faktor (en) in FA berücksichtigen den Teil der Variabilität, der der Nettokorrelationsanteil ist, der als Kommunalität bezeichnet wird ; und daher können Faktoren als reale, jedoch nicht beobachtbare Kräfte / Merkmale / Eigenschaften interpretiert werden, die sich "in" oder "hinter" den Eingabevariablen verstecken, um sie zu korrelieren. Weil sie die Korrelation mathematisch gut erklären. Die Hauptkomponenten (nur wenige erste) erklären es mathematisch nicht so gut und können daher nur an einigen Stellen und vorläufig als "latentes Merkmal" (oder so) bezeichnet werden .

Die Multiplikation von Ladungen ist das, was Korrelation oder Korrelation in Form von Kovarianz erklärt (wiederherstellt) - wenn die Analyse auf einer Kovarianzmatrix (wie in unserem Beispiel) und nicht auf einer Korrelationsmatrix basiert. Die Faktorenanalyse, die ich mit den Daten durchgeführt habe, ergab a_1=.87352, a_2=.84528, dass das Produkt a_1*a_2 = .73837fast der Kovarianz entspricht .73915. Andererseits wurden PCA-Ladungen a1_1=.97497, a1_2=.89832, also erheblich a1_1*a1_2 = .87584überschätzt .73915.

Nachdem wir den wichtigsten theoretischen Unterschied zwischen PCA und FA erklärt haben, kehren wir zu unseren Daten zurück, um die Idee zu veranschaulichen.

FA: ungefähre Lösung (Faktorwerte)

Unten ist die Scatterplot der Ergebnisse der Analyse zeigen , dass wir vorläufig „suboptimal Faktoranalyse“, rufen werden Abb.3 .

A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).

Bildbeschreibung hier eingeben

Siehe Abweichungen von Fig . 2 der PCA. Die beige Wolke der Fehler ist nicht rund, sondern diagonal elliptisch - und doch offenbar viel dicker als die dünne diagonale Linie, die bei PCA aufgetreten ist. Beachten Sie auch, dass die Fehleranschlüsse (für einige Punkte angezeigt) nicht mehr parallel sind (in PCA waren sie definitionsgemäß parallel zu P2). Wenn Sie zum Beispiel die Punkte "F" und "E" betrachten, die spiegelsymmetrisch über der F- Achse des Faktors liegen , werden Sie darüber hinaus unerwartet feststellen, dass ihre entsprechenden Faktorwerte sehr unterschiedliche Werte sind. Mit anderen Worten, Faktor-Scores sind nicht nur linear transformierte Hauptkomponenten-Scores: Faktor F wird auf seine eigene Art und Weise gefunden, die sich von der von P1 unterscheidet. Und ihre Achsen stimmen nicht vollständig überein, wenn sie im selben Diagramm dargestellt sind. Abb.4 :

Bildbeschreibung hier eingeben

Abgesehen davon, dass sie ein bisschen anders orientiert sind, ist F (wie mit Punkten gekachelt) kürzer, dh es macht eine geringere Varianz aus als P1. Wie bereits erwähnt, berücksichtigt der Faktor nur die Variabilität, die für die Korrelation von V1 V2 verantwortlich ist, dh den Anteil der Gesamtvarianz, der ausreicht, um die Variablen von der ursprünglichen Kovarianz 0zur tatsächlichen Kovarianz zu bringen .73915.

FA: optimale Lösung (wahrer Faktor)

Eine optimale Faktorlösung ist, wenn die Fehler rund sind oder keine diagonale elliptische Wolke: E1 und E2 sind vollständig unkorreliert . Die Faktorenanalyse liefert tatsächlich eine solche optimale Lösung. Ich habe es nicht auf einem einfachen Streudiagramm wie dem oben gezeigten gezeigt. Warum habe ich? - denn es wäre doch das interessanteste gewesen.

Der Grund ist, dass es unmöglich ist, auf einem Streudiagramm ausreichend zu zeigen, selbst wenn ein 3D-Diagramm übernommen wird. Theoretisch ist das ein ziemlich interessanter Punkt. Um E1 und E2 vollständig unkorreliert zu machen, scheinen alle diese drei Variablen F, E1, E2 nicht in dem durch V1, V2 definierten Raum (Ebene) zu liegen ; und die drei müssen unkorreliert sein . Ich glaube, dass es möglich ist, ein solches Streudiagramm in 5D zu zeichnen (und vielleicht mit ein wenig Spielerei - in 4D), aber wir leben leider in der 3D-Welt. Faktor F muss sowohl mit E1 als auch mit E2 unkorreliert sein (während beide ebenfalls unkorreliert sind), da F die einzige (saubere) und vollständige Korrelationsquelle in den beobachteten Daten sein soll. Die Faktoranalyse teilt die Gesamtvarianz derpEingabevariablen in zwei nicht korrelierte (nicht überlappende) Teile: den Kommunalitätsteil ( m-dimensional, wo mgemeinsame Faktoren herrschen) und den Eindeutigkeitsteil ( p-dimensional, wo Fehler, auch eindeutige Faktoren genannt, nicht miteinander korreliert sind).

Verzeihung, dass wir hier nicht den wahren Faktor unserer Daten in einem Streudiagramm darstellen. Es könnte über Vektoren im "Subjektraum", wie hier gemacht, ziemlich gut visualisiert werden, ohne Datenpunkte zu zeigen.

Oben im Abschnitt "Die Idee des gemeinsamen FA (latentes Merkmal)" habe ich den Faktor (Achse F) als Keil angezeigt, um zu warnen, dass die Achse des wahren Faktors nicht in der Ebene V1 V2 liegt. Dies bedeutet, dass - im Gegensatz zur Hauptkomponente P1 - der Faktor F als Achse keine Drehung der Achse V1 oder V2 in ihrem Raum ist und F als Variable keine lineare Kombination der Variablen V1 und V2 ist. Daher wird F so modelliert (aus den Variablen V1 und V2 extrahiert), als ob es sich um eine äußere, unabhängige Variable und nicht um eine Ableitung derselben handelt. Gleichungen wie Gleichung 1, ab der PCA beginnt, sind nicht anwendbar, um den wahren (optimalen) Faktor in der Faktoranalyse zu berechnen , wohingegen formal isomorphe Gleichungen Gleichung 2 und Gleichung 3gelten für beide Analysen. Das heißt, in PCA-Variablen generieren Komponenten und Komponenten prognostizieren Variablen zurück; in FA - Faktor (en) erzeugen / Variablen vorhersagen, und nicht zurück - gemeinsames Faktor Modell geht davon aus konzeptionell so , obwohl technisch Faktoren aus den beobachteten Variablen extrahiert werden.

Nicht nur der wahre Faktor ist keine Funktion der Manifestvariablen, auch die Werte des wahren Faktors sind nicht eindeutig definiert . Mit anderen Worten, sie sind einfach unbekannt. Dies alles ist auf die Tatsache zurückzuführen, dass wir uns im übermäßigen 5D-Analysebereich und nicht im 2D-Ausgangsbereich der Daten befinden. Für uns gibt es nur gute Annäherungen (es gibt eine Reihe von Methoden ) an wahre Faktorwerte, sogenannte Faktor-Scores . Faktor-Scores liegen in der Ebene V1 V2, wie die Hauptkomponenten-Scores auch, sie werden als lineare Funktionen von V1, V2 berechnet und waren es auchdas habe ich im Abschnitt "FA: Näherungslösung (Faktorwerte)" eingetragen. Hauptkomponentenbewertungen sind wahre Komponentenwerte; Faktorwerte sind nur eine vernünftige Annäherung an die unbestimmten wahren Faktorwerte.

FA: Zusammenfassung des Verfahrens

Zu einem kleinen Gerinnsel zusammenfassen, was in den beiden vorhergehenden Abschnitten gesagt wurde, und letzte Striche hinzufügen. Tatsächlich kann FA ( wenn Sie es richtig machen und auch Datenannahmen sehen ) die Lösung des wahren Faktors finden (mit "wahr" meine ich hier optimal für die Datenstichprobe). Es gibt jedoch verschiedene Extraktionsmethoden (sie unterscheiden sich in einigen von ihnen auferlegten sekundären Einschränkungen). Die wahre Faktor Lösung ist bis Beladungen nur. Somit sind Ladungen von optimalen, wahren Faktoren. Faktorwerte - falls erforderlich - können auf verschiedene Weise aus diesen Belastungen berechnet werden und geben Annäherungen an die Faktorwerte zurück.a

Somit basierte die von mir im Abschnitt "FA: Näherungslösung (Faktorwerte)" angezeigte "Faktorlösung" tatsächlich auf optimalen Belastungen, dh auf wahren Faktoren. Aber die Ergebnisse waren vom Schicksal her nicht optimal. Die Bewertungen werden wie die Komponentenbewertungen als lineare Funktion der beobachteten Variablen berechnet, sodass beide auf einem Streudiagramm verglichen werden können, und ich habe es in didaktischer Verfolgung getan, um zu zeigen, wie ein schrittweiser Übergang von der PCA-Idee zur FA-Idee.

Man muss vorsichtig sein, wenn man auf dem gleichen Biplot Faktorladungen mit Faktorbewertungen im "Raum der Faktoren" plottet , sich bewusst sein, dass Ladungen sich auf wahre Faktoren beziehen, während sich Bewertungen auf Ersatzfaktoren beziehen (siehe meine Kommentare zu dieser Antwort in diesem Thread).

Die Rotation von Faktoren (Belastungen) hilft bei der Interpretation der latenten Merkmale. Das Drehen von Lasten kann auch in PCA erfolgen, wenn Sie PCA als Faktoranalyse verwenden (dh PCA als variable Vorhersage ansehen). PCA tendiert dazu, mit zunehmender Anzahl von Variablen in den Ergebnissen mit FA zu konvergieren (siehe den äußerst umfangreichen Thread zu praktischen und konzeptuellen Ähnlichkeiten und Unterschieden zwischen den beiden Methoden). Siehe meine Liste der Unterschiede zwischen PCA und FA am Ende dieser Antwort . Schritt für Schritt Berechnungen von PCA vs FA auf Iris - Datensatz gefunden werden hier . Es gibt eine beträchtliche Anzahl guter Links zu den Antworten anderer Teilnehmer zu dem Thema außerhalb dieses Threads. Es tut mir leid, dass ich in der aktuellen Antwort nur wenige davon verwendet habe.

Siehe auch eine Aufzählung der Unterschiede zwischen PCA und FA hier .


1
+1. Es ist großartig, dass du es geschrieben hast. In diesem Thread fehlte definitiv eine Antwort von dir. Ich habe mich vor dem Lesen aufgewertet (was ich selten tue) und es hat mir auf jeden Fall Spaß gemacht, danach zu lesen. Ich könnte später mehr dazu sagen, aber ein kleiner Trottel fürs Erste: Sie haben mehrmals geschrieben, dass in FA die Fehlerwolke "rund" sein sollte. Tatsächlich kann es aber auch elliptisch sein (da die Eindeutigkeiten für V1 und V2 unterschiedliche Varianzen aufweisen können), es müssen lediglich keine Korrelationen vorliegen. Ich glaube, Sie wollten die Leser nicht mit diesem Detail verwechseln.
Amöbe

1
@amoeba Ich habe einen naiven Zweifel an der mathematischen Unmöglichkeit, das optimale F, E1, E2 in dem durch V1, V2 definierten Raum (Ebene) wiederzugeben. Ich kann mir ein Gegenbeispiel dafür : Sagen Sie und , wobei - Verwenden Sie nun diese Relationen, um Samples von V1 und V2 zu generieren. Sobald V1 und V2 erzeugt sind, sollten wir, wenn wir den optimalen FA durchführen wollen, nahezu genaue Schätzungen von (E1, E2) erhalten, und es wird eine elliptische Wolke gebildet. Außerdem können nun F, E1, E2 in der gleichen Ebene wie V1 und V2 dargestellt werden. V 2 = a 2 F + E 2 ( E 1 , E 2 ) = N ( 0 , I )V1=a1F+E1V2=a2F+E2(E1,E2)=N(0,I)
Kasa

@kasa, begrüßte dein Kommentar meine Antwort oder den Kommentar von Amöbe? Wenn Ihr Kommentar gegen meine grundsätzliche Behauptung verstößt, dass in FA die drei latenten Variablen nicht im ursprünglichen Raum liegen und Sie ihn zeigen können, warum nicht eine Antwort ausgeben, die ihn zeigt? Beachten Sie jedoch, dass bei optimaler FA die Fehler exakt unkorreliert sind, und nicht, dass angenommen werden könnte, dass sie von einer normalen unkorrelierten Grundgesamtheit stammen.
TTNPHNS

@ttnphns: Entschuldigung für die Verwirrung, ich habe an Ihrer Hauptforderung gezweifelt. Ich werde versuchen, es in ein paar Tagen als Antwort zu zeigen. Vielen Dank!
Kasa

21

Unterschiede zwischen Faktoranalyse und Hauptkomponentenanalyse sind:

• In der Faktorenanalyse gibt es ein strukturiertes Modell und einige Annahmen. In dieser Hinsicht handelt es sich um eine statistische Technik, die nicht für die Hauptkomponentenanalyse gilt, bei der es sich um eine rein mathematische Transformation handelt.

• Ziel der Hauptkomponentenanalyse ist es, die Varianz zu erklären, während die Faktoranalyse die Kovarianz zwischen den Variablen erklärt.

Einer der Hauptgründe für die Verwechslung zwischen beiden liegt in der Tatsache, dass eine der Methoden zur Faktorextraktion in der Faktoranalyse als "Methode der Hauptkomponenten" bezeichnet wird. Es ist jedoch eine Sache, PCA zu verwenden, und eine andere Sache, die Methode der Hauptkomponenten in FA zu verwenden. Die Namen mögen ähnlich sein, aber es gibt signifikante Unterschiede. Ersteres ist eine unabhängige Analysemethode, während letzteres lediglich ein Werkzeug zur Faktorextraktion ist.


13

Für mich (und ich hoffe, das ist nützlich) ist die Faktorenanalyse viel nützlicher als PCA.

Vor kurzem hatte ich das Vergnügen, eine Skala durch Faktoranalyse zu analysieren. Diese Skala (obwohl sie in der Industrie weit verbreitet ist) wurde unter Verwendung von PCA entwickelt und meines Wissens wurde der Faktor nie analysiert.

Als ich die Faktorenanalyse (Hauptachse) durchführte, stellte ich fest, dass die Gemeinsamkeiten für drei der Elemente weniger als 30% waren, was bedeutet, dass über 70% der Varianz der Elemente nicht analysiert wurden. PCA wandelt die Daten nur in eine neue Kombination um und kümmert sich nicht um Gemeinsamkeiten. Mein Fazit war, dass die Skala aus psychometrischer Sicht nicht sehr gut war, und ich habe dies mit einer anderen Stichprobe bestätigt.

Wenn Sie die Faktoren vorhersagen möchten, verwenden Sie im Wesentlichen PCA, und wenn Sie die latenten Faktoren verstehen möchten, verwenden Sie die Faktoranalyse.


11

Erweiterung der Antwort von @ StatisticsDocConsulting: Der Unterschied in der Beladung zwischen EFA und PCA ist mit einer kleinen Anzahl von Variablen nicht trivial. Hier ist eine Simulationsfunktion, um dies in R zu demonstrieren:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

Standardmäßig führt diese Funktion 100 aus Iterations, wobei jede von ihnen zufällige, normalverteilte Stichproben ( ) von drei Variablen erzeugt und einen Faktor mit PCA und ML-EFA extrahiert. Es gibt eine Liste von zwei langen Vektoren aus, die sich aus den mittleren Beträgen der Belastungen der simulierten Variablen für die nicht gedrehte erste Komponente von PCA bzw. den allgemeinen Faktor von EFA zusammensetzen. Es ermöglicht Ihnen , mit Stichprobengröße und Anzahl von Variablen zu spielen , um und Faktoren , die Ihre Situation zu entsprechen, innerhalb der Grenzen der und Funktionen und dem Computer.Sample.Size=1000Iterationsprincipal()factanal()

Mit diesem Code habe ich Beispiele von 3 bis 100 Variablen mit jeweils 500 Iterationen simuliert, um Daten zu erzeugen:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

... für ein Diagramm der Empfindlichkeit der mittleren Belastungen (über Variablen und Iterationen hinweg) gegenüber der Anzahl der Variablen:

Dies zeigt, wie unterschiedlich man die Belastungsstärke bei PCA vs. EFA interpretieren muss. Beide hängen etwas von der Anzahl der Variablen ab, aber die Ladevorgänge sind in PCA viel stärker nach oben gerichtet. Die Differenz zwischen den mittleren Ladungen dieser Methoden nimmt mit zunehmender Anzahl von Variablen ab, aber selbst bei 100 Variablen sind die PCA-Ladungen im Durchschnitt höher als die EFA-Ladungen in zufälligen normalen Daten. Beachten Sie jedoch, dass die mittleren Belastungen in realen Anwendungen normalerweise höher sind, da diese Methoden im Allgemeinen für stärker korrelierte Variablen verwendet werden. Ich bin mir nicht sicher, wie sich dies auf die Differenz der mittleren Ladungen auswirkt..067


10

Man kann sich eine PCA als eine FA vorstellen, bei der angenommen wird, dass die Kommunalitäten für alle Variablen gleich 1 sind. In der Praxis bedeutet dies, dass Artikel, die aufgrund geringer Kommunalität eine relativ geringe Faktorbelastung in FA aufweisen, eine höhere Belastung in PCA aufweisen. Dies ist keine wünschenswerte Funktion, wenn der Hauptzweck der Analyse darin besteht, die Objektlänge zu verringern und eine Batterie von Objekten mit geringer oder nicht eindeutiger Belastung zu reinigen oder Konzepte zu identifizieren, die im Objektpool nicht gut vertreten sind.


10

Ein Zitat aus einem wirklich schönen Lehrbuch (Brown, 2006, S. 22, Hervorhebung hinzugefügt).
PCA = Hauptkomponentenanalyse
EFA = Exploratory Factor Analysis
CFA = Confirmatory Factor Analysis

Obwohl im Zusammenhang mit EFA, wird die Hauptkomponentenanalyse (PCA) häufig als Schätzmethode für die Analyse gemeinsamer Faktoren falsch eingestuft. Im Gegensatz zu den im vorhergehenden Absatz diskutierten Schätzern (ML, PF) stützt sich PCA auf einen anderen Satz quantitativer Methoden, die nicht auf dem Common-Factor-Modell basieren. PCA unterscheidet keine gemeinsame und eindeutige Varianz. Vielmehr zielt PCA darauf ab, die Varianz in den beobachteten Maßen zu berücksichtigen, anstatt die Korrelationen zwischen ihnen zu erklären. Daher wird PCA geeigneter als Datenreduktionstechnik verwendet, um einen größeren Satz von Kennzahlen auf eine kleinere, besser verwaltbare Anzahl von zusammengesetzten Variablen zu reduzieren, die in nachfolgenden Analysen verwendet werden sollen. Einige Methodologen haben jedoch argumentiert, dass PCA eine vernünftige oder vielleicht überlegene Alternative zu EFA ist. In Anbetracht der Tatsache, dass PCA mehrere wünschenswerte statistische Eigenschaften besitzt (z. B. rechenvereinfachend, unanfällig für ungeeignete Lösungen), führt dies häufig zu ähnlichen Ergebnissen wie EFA EFA kompliziert solche Berechnungen). Obwohl die Debatte zu diesem Thema weitergeht, haben Fabrigar et al. (1999) sprechen aus mehreren Gründen gegen das Argument, dass PCA in der Faktoranalyse eine Rolle spielt. Diese Autoren unterstreichen die Situationen, in denen EFA und PCA unterschiedliche Ergebnisse liefern. Zum Beispiel, wenn die Kommunitäten niedrig sind oder wenn es nur wenige Indikatoren für einen bestimmten Faktor gibt (vgl. Widaman, 1993). häufig ähnliche Ergebnisse wie bei der EFA (Fähigkeit der PCA, die Bewertung eines Teilnehmers anhand einer Hauptkomponente zu berechnen, während die Unbestimmtheit der EFA solche Berechnungen erschwert). Obwohl die Debatte zu diesem Thema weitergeht, haben Fabrigar et al. (1999) sprechen aus mehreren Gründen gegen das Argument, dass PCA in der Faktoranalyse eine Rolle spielt. Diese Autoren unterstreichen die Situationen, in denen EFA und PCA unterschiedliche Ergebnisse liefern. Zum Beispiel, wenn die Kommunitäten niedrig sind oder wenn es nur wenige Indikatoren für einen bestimmten Faktor gibt (vgl. Widaman, 1993). häufig ähnliche Ergebnisse wie bei der EFA (Fähigkeit der PCA, die Bewertung eines Teilnehmers anhand einer Hauptkomponente zu berechnen, während die Unbestimmtheit der EFA solche Berechnungen erschwert). Obwohl die Debatte zu diesem Thema weitergeht, haben Fabrigar et al. (1999) sprechen aus mehreren Gründen gegen das Argument, dass PCA in der Faktoranalyse eine Rolle spielt. Diese Autoren unterstreichen die Situationen, in denen EFA und PCA unterschiedliche Ergebnisse liefern. Zum Beispiel, wenn die Kommunitäten niedrig sind oder wenn es nur wenige Indikatoren für einen bestimmten Faktor gibt (vgl. Widaman, 1993). (1999) sprechen aus mehreren Gründen gegen das Argument, dass PCA in der Faktoranalyse eine Rolle spielt. Diese Autoren unterstreichen die Situationen, in denen EFA und PCA unterschiedliche Ergebnisse liefern. Zum Beispiel, wenn die Kommunitäten niedrig sind oder wenn es nur wenige Indikatoren für einen bestimmten Faktor gibt (vgl. Widaman, 1993). (1999) sprechen aus mehreren Gründen gegen das Argument, dass PCA in der Faktoranalyse eine Rolle spielt. Diese Autoren unterstreichen die Situationen, in denen EFA und PCA unterschiedliche Ergebnisse liefern. Zum Beispiel, wenn die Kommunitäten niedrig sind oder wenn es nur wenige Indikatoren für einen bestimmten Faktor gibt (vgl. Widaman, 1993).Unabhängig davon, ob das übergeordnete Grundprinzip und die empirischen Ziele einer Analyse mit dem Common-Factor-Modell übereinstimmen, ist es konzeptionell und mathematisch inkonsistent, PCA durchzuführen. Das heißt, EFA ist besser geeignet, wenn das erklärte Ziel darin besteht, die Wechselbeziehungen eines Satzes von Indikatoren mit einer geringeren Anzahl latenter Dimensionen zu reproduzieren und dabei das Vorhandensein von Messfehlern in den beobachteten Maßen zu erkennen.Floyd und Widaman (1995) weisen darauf hin, dass Schätzungen, die auf EFA basieren, mit höherer Wahrscheinlichkeit auf CFA verallgemeinert werden als solche, die von PCA erhalten werden, da im Gegensatz zu PCA EFA und CFA auf dem Common-Factor-Modell basieren. Dies ist eine bemerkenswerte Überlegung angesichts der Tatsache, dass EFA häufig als Vorläufer für CFA bei der Entwicklung von Maßstäben und der Validierung von Konstrukten verwendet wird. Eine detaillierte Demonstration der rechnerischen Unterschiede zwischen PCA und EFA findet sich in multivariaten und faktoranalytischen Lehrbüchern (z. B. Tabachnick & Fidell, 2001).

Brown, TA (2006). Bestätigungsfaktoranalyse für die angewandte Forschung. New York: Guilford Press.


6

In einem Artikel von Tipping und Bischop wird die enge Beziehung zwischen probabalistischer PCA (PPCA) und Faktoranalyse diskutiert. PPCA ist näher an FA als der klassische PCA. Das gängige Modell ist

y=μ+Wx+ϵ

Wobei , und . x ~ N ( 0 , I ) ε ~ N ( 0 , Ψ )WRp,dxN(0,I)ϵN(0,Ψ)

  • Die Faktorenanalyse geht davon aus, dass diagonal ist.Ψ
  • PPCA geht davon aus, dassΨ=σ2I

Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Zeitschrift der Royal Statistical Society, Band 61, Ausgabe 3, Seiten 611–622


2
+1. Ja. Ich glaube, dass das Verständnis von PPCA notwendig ist, um die Beziehung zwischen PCA und FA zu verstehen. Sie können Ihre Antwort jedoch verbessern, indem Sie die Beziehung zwischen PCA und PPCA erörtern.
Amöbe

3

Keine dieser Antworten ist perfekt. Entweder FA oder PCA hat einige Varianten. Wir müssen deutlich machen, welche Varianten verglichen werden. Ich würde die Maximum-Likelihood-Faktor-Analyse mit der PCA von Hotelling vergleichen. Ersteres setzt voraus, dass die latente Variable einer Normalverteilung folgt, PCA jedoch keine solche Annahme trifft. Dies hat zu Unterschieden wie der Lösung, der Verschachtelung der Komponenten, der Einzigartigkeit der Lösung und den Optimierungsalgorithmen geführt.


1
Ich frage mich, ob Sie dies etwas erweitern könnten - Sie haben gesagt, dass es Unterschiede im letzten Satz gibt, aber nicht viele Informationen darüber, was diese Unterschiede sein könnten oder inwiefern diese Unterschiede wichtig sein könnten.
Silberfischchen

1
Zwei am weitesten entfernte Methoden auszuwählen und zu behaupten, dass sie tatsächlich unterschiedlich sind - so wie Sie -, ist auch keine perfekte Logik. Man sollte wahrscheinlich herausfinden und berichten, wie ähnlich diese beiden sind. Alternativ kann man die ähnlichsten Methoden wählen (wie z. B. PCA oder PAF ) und angeben, inwiefern sie sich unterscheiden.
TTNPHNS

1
Hotellings PCA geht von latenten Gaußschen aus.
Vermutungen

1

Es gibt viele gute Antworten auf diesen Beitrag, aber kürzlich bin ich auf einen weiteren Unterschied gestoßen.

Clustering ist eine Anwendung, bei der PCA und FA unterschiedliche Ergebnisse liefern. Wenn die Daten viele Funktionen enthalten, wird möglicherweise versucht, die wichtigsten PC-Anweisungen zu finden und die Daten auf diese PCs zu projizieren. Anschließend wird mit dem Clustering fortgefahren. Häufig stört dies die inhärenten Cluster in den Daten. Dies ist ein bewährtes Ergebnis. Die Forscher schlagen vor, mit Subraum-Clustering-Methoden fortzufahren, die nach niedrigdimensionalen latenten Faktoren im Modell suchen.

Um diesen Unterschied zu veranschaulichen, betrachten Sie den CrabsDatensatz in R. Crabs. Der Datensatz enthält 200 Zeilen und 8 Spalten, die 5 morphologische Messungen an 50 Krabben mit jeweils zwei Farbformen und beiden Geschlechtern der Art beschreiben. Im Wesentlichen gibt es 4 (2x2) verschiedene Klassen von Krabben.

library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)


res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)

Clustering mit PC1 und PC2: Bildbeschreibung hier eingeben

Clustering mit PC2 und PC3: Bildbeschreibung hier eingeben

#using PC1 and PC2:
     1  2  3  4
  1 12 46 24  5
  2 36  0  2  0
  3  2  1 24  0
  4  0  3  0 45

#using PC2 and PC3:
    1  2  3  4
  1 36  0  0  0
  2 13 48  0  0
  3  0  1  0 48
  4  1  1 50  2

Wie aus den obigen Darstellungen ersichtlich ist, enthalten PC2 und PC3 mehr Unterscheidungsinformationen als PC1.

Wenn man versucht, die latenten Faktoren mithilfe eines Mixture of Factor Analyzers zu gruppieren, sehen wir ein viel besseres Ergebnis als bei den ersten beiden PCs.

mfa_model <- mfa(y, g = 4, q = 2)
  |............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))

     1  2  3  4
  1  0  0  0 45
  2 16 50  0  0
  3 34  0  0  0
  4  0  0 50  5

Ich muss sagen, dass ich bezweifle, dass diese Antwort die Frage wirklich beantwortet. Die Antwort bezieht sich auf die Clusteranalyse nach PCA oder FA, nicht auf PCA und FA selbst. Aber auch in dieser Hinsicht ist die Antwort schwach oder unvollendet. Wie ist der von Ihnen angezeigte Unterschied zu erklären?
TTNPHNS

@ttnphns Ich bin damit einverstanden, dass sich die Antwort auf die Clusteranalyse bezieht. OP hatte jedoch auch nach einem realen Szenario mit PCA / FA gefragt, bei dem eines über dem anderen verwendet werden muss. Typischerweise ist PCA oder FA niemals das Endziel. In den Sozialwissenschaften besteht das Endziel beispielsweise darin, die Themen in verschiedene Cluster / Gruppen zu unterteilen. Meine Antwort befasst sich mit solchen Szenarien. Falls Sie glauben, dass meine Antwort verbessert werden kann, können Sie gerne darauf hinweisen.
Kasa

Ich denke, dass Ihre Antwort wirklich relevant werden kann, wenn Sie Ihr Ergebnis erklären. Sie behaupten, dass die Unterschiede zwischen PCA und FA für beide Methoden intrinsisch sind (nur sie werden beim Clustering sichtbar). Ich denke, Sie sollten zeigen oder zumindest spekulieren, wie oder warum sich die Unterschiede theoretisch aus den Unterschieden der Methodenmodelle ergeben.
TTNPHNS
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.