Wie kann eine parallele Analyse in der exploratorischen Faktoranalyse richtig interpretiert werden?

8

Einige wissenschaftliche Arbeiten berichten über Ergebnisse der parallelen Analyse der Hauptachsenfaktoranalyse in einer Weise, die nicht mit meinem Verständnis der Methodik vereinbar ist. Was vermisse ich? Bin ich falsch oder sind sie.

Beispiel:

Daten: Die Leistung von 200 einzelnen Menschen wurde bei 10 Aufgaben beobachtet. Für jede Person und jede Aufgabe gibt es eine Leistungsbewertung. Die Frage ist nun, wie viele Faktoren die Ursache für die Leistung bei den 10 Aufgaben sind.
Methode: Parallele Analyse zur Bestimmung der Anzahl der Faktoren, die in einer Hauptachsenfaktoranalyse beibehalten werden sollen.
Beispiel für das gemeldete Ergebnis: „Die parallele Analyse legt nahe, dass nur Faktoren mit einem Eigenwert von 2,21 oder mehr beibehalten werden sollten.“

Das ist doch Unsinn, oder?

Aus dem Originalpapier von Horn (1965) und Tutorials wie Hayton et al. (2004) Ich verstehe, dass die parallele Analyse eine Anpassung des Kaiser-Kriteriums (Eigenwert> 1) ist, die auf zufälligen Daten basiert. Die Anpassung besteht jedoch nicht darin, den Grenzwert 1 durch eine andere feste Zahl zu ersetzen, sondern einen individuellen Grenzwert für jeden Faktor (und abhängig von der Größe des Datensatzes, dh 200 mal 10 Bewertungen). Betrachtet man die Beispiele von Horn (1965) und Hayton et al. (2004) und die Ausgabe der R - Funktionen fa.parallel im Psych Paket- und parallel in den nFactorsIch sehe, dass die parallele Analyse eine abfallende Kurve im Scree-Diagramm erzeugt, um sie mit den Eigenwerten der realen Daten zu vergleichen. Eher wie „Behalte den ersten Faktor bei, wenn sein Eigenwert> 2,21 ist; behalten Sie zusätzlich die Sekunde bei, wenn ihr Eigenwert> 1,65 ist; … ”.

Gibt es eine vernünftige Einstellung, eine Denkrichtung oder eine Methode, die „die parallele Analyse legt nahe, dass nur Faktoren mit einem Eigenwert von 2,21 oder mehr beibehalten werden sollten“ korrekt ist?

Verweise:

Hayton, JC, Allen, DG, Scarpello, V. (2004). Entscheidungen zur Beibehaltung von Faktoren in der explorativen Faktoranalyse: Ein Tutorial zur parallelen Analyse. Organizational Research Methods, 7 (2): 191 & ndash; 205.

Horn, JL (1965). Eine Begründung und ein Test für die Anzahl der Faktoren in der Faktoranalyse. Psychometrika, 30 (2): 179 & ndash; 185.

factor-analysis psychometrics parallel-analysis

— jhg
quelle

1

Im Übrigen wurde die Forderung von Hayton et al., Dass die Verteilungsform der unkorrelierten Daten, die zur Erzeugung mittlerer Eigenwerte zur Schätzung des "Sampling Bias" verwendet wurden, in Dinno, A. (2009) kritisch untersucht und verworfen wurde. Untersuchung der Empfindlichkeit der parallelen Analyse von Horn gegenüber der Verteilungsform simulierter Daten. Multivariate Verhaltensforschung , 44 (3): 362–388.

— Alexis

1

Siehe übrigens auch mein paralleles Analysepaket paranfür R (auf CRAN) und für Stata (innerhalb des Stata-Typs findit paran).

— Alexis

9

Es gibt zwei äquivalente Möglichkeiten, um das Kriterium der parallelen Analyse auszudrücken. Aber zuerst muss ich mich um ein in der Literatur vorherrschendes Missverständnis kümmern.

Das Missverständnis
Die sogenannte Kaiser-Regel (Kaiser mochte die Regel nicht wirklich, wenn Sie seine Arbeit von 1960 lesen) Eigenwerte größer als eins werden für die Hauptkomponentenanalyse beibehalten . Mit Hilfe der sogenannten Kaiser Regel Eigenwert größer als Null beibehalten wird für Hauptfaktorenanalyse / common Faktor anlaysis . Diese Verwirrung ist im Laufe der Jahre entstanden, weil mehrere Autoren die Bezeichnung "Faktoranalyse" zur Beschreibung der "Hauptkomponentenanalyse" schlampig verwendet haben, wenn sie nicht dasselbe sind.

Weitere Informationen zur Berechnung finden Sie unter Sanfte Klärung der Anwendung der Horn-Parallelanalyse auf die Hauptkomponentenanalyse im Vergleich zur Faktoranalyse.

Aufbewahrungskriterien
für die parallele Analyse Für die Hauptkomponentenanalyse basierend auf der Korrelationsmatrix der Anzahl von Variablen haben Sie mehrere Größen. Zuerst haben Sie die beobachteten Eigenwerte aus einer Eigenzusammensetzung der Korrelationsmatrix Ihrer Daten, . Zweitens haben Sie die mittleren Eigenwerte aus Eigendekompositionen der Korrelationsmatrizen "einer großen Anzahl" zufälliger (unkorrelierter) Datensätze mit demselben und wie Ihr eigenes, . $p$ $\lambda_{1}, \dots, \lambda_{p}$ $n$ $p$ $\bar{\lambda}^{\text{r}}_{1},\dots,\bar{\lambda}^{\text{r}}_{p}$

Horn formuliert seine Beispiele auch in Bezug auf "Sampling Bias" und schätzt diesen Bias für den Eigenwert (für die Hauptkomponentenanalyse) als . Diese Vorspannung kann dann verwendet werden, um beobachtete Eigenwerte folgendermaßen anzupassen: $q^{\text{th}}$ $\varepsilon_{q} = \bar{\lambda}^{\text{r}}_{q} - 1$ $\lambda^{\text{adj}}_{q} = \lambda_{q} - \varepsilon_{q}$

Bei diesen Größen können Sie das Aufbewahrungskriterium für den beobachteten Eigenwert einer Hauptkomponenten-Parallelanalyse auf zwei mathematisch äquivalente Arten ausdrücken : $q^{\text{th}}$

$\lambda^{\text{adj}}_{q} \left\{\begin{array}{cc} > 1 & \text{Retain.} \\\\ \le 1 & \text{Not retain.} \end{array}\right.$

$\lambda_{q} \left\{\begin{array}{cc} > \bar{\lambda}^{\text{r}}_{q} & \text{Retain.} \\\\ \le \bar{\lambda}^{\text{r}}_{q} & \text{Not retain.} \end{array}\right.$

Was ist mit der Hauptfaktoranalyse / Common-Factor-Analyse? Hier müssen wir bedenken , daß die Vorspannung ist der entsprechende Mittelwert Eigenwert: (minus Null, da die Kaiser-Regel für die Eigenzerlegung der Korrelationsmatrix mit der durch die Kommunalitäten ersetzten Diagonale darin besteht, Eigenwerte größer als Null beizubehalten). Deshalb hier . $\varepsilon_{q} = \bar{\lambda}^{\text{r}}_{q} - 0 = \bar{\lambda}^{\text{r}}_{q}$ $\lambda^{\text{adj}}_{q} = \lambda_{q} - \bar{\lambda}^{\text{r}}_{q}$

Daher sollten die Aufbewahrungskriterien für die Hauptfaktoranalyse / Common-Factor-Analyse wie folgt ausgedrückt werden:

$\lambda^{\text{adj}}_{q} \left\{\begin{array}{cc} > 0 & \text{Retain.} \\\\ \le 0 & \text{Not retain.} \end{array}\right.$

$\lambda_{q} \left\{\begin{array}{cc} > \bar{\lambda}^{\text{r}}_{q} & \text{Retain.} \\\\ \le \bar{\lambda}^{\text{r}}_{q} & \text{Not retain.} \end{array}\right.$

Beachten Sie, dass die zweite Form des Ausdrucks des Aufbewahrungskriteriums sowohl für die Hauptkomponentenanalyse als auch für die Analyse gemeinsamer Faktoren konsistent ist (dh weil sich die Definition von in Abhängigkeit von Komponenten / Faktoren ändert, aber die Die zweite Form des Aufbewahrungskriteriums wird nicht in Form von ausgedrückt . $\lambda^{\text{adj}}_{q}$ $\lambda^{\text{adj}}_{q}$

eine weitere Sache ...
Sowohl die Hauptkomponentenanalyse als auch die Hauptfaktoranalyse / Common-Factor-Analyse können auf der Kovarianzmatrix und nicht auf der Korrelationsmatrix basieren . Da dies die Annahmen / Definitionen über die Gesamtvarianz und die gemeinsame Varianz ändert, sollten nur die zweiten Formen des Aufbewahrungskriteriums verwendet werden, wenn die Analyse auf der Kovarianzmatrix basiert.

— Alexis
quelle

1

Großartig! Der erste wichtige Teil für mich ist, dass Ihre Aufbewahrungskriterien , dh einen bestimmten Grenzwert für jeden Faktor . Der fragliche Satz "Parallele Analyse legt nahe, dass nur Faktoren mit einem Eigenwert von 2,21 oder mehr beibehalten werden sollten" entspricht . Das ist unmöglich. Für Hauptkomponenten-Annalyse addieren sich Eigenvektoren zu , für die Faktoranalyse zu . Ein einzelner unabhängig von existiert nur für vollständig unkorrelierte Daten ( ) und ist dann entweder 0 (fa) oder 1 (pca). Richtig?

{\bar{λ}}_{q}^{r}

$\bar{\lambda}^{r}_{q}$

q

$q$

\forall q {\bar{λ}}_{q}^{r} = 2.21

$\forall~q~\bar{\lambda}^{r}_{q}=2.21$

p

$p$

< p

$< p$

{\bar{λ}}^{r}

$\bar{\lambda}^{r}$

q

$q$

n \to \infty

$n \rightarrow \infty$

— jhg

Ich hatte Ihre Zeitung "Gently Clarifying ..." schon einmal gelesen und mag sie sehr. In diesem Beitrag geben Sie an, dass "unter Verwendung der sogenannten Kaiser-Regel Eigenwerte größer als Null für die Hauptfaktoranalyse / gemeinsame Faktoranalyse beibehalten werden", und in der Arbeit gibt es einen ähnlichen Kommentar. Aus der Mathematik ist es intuitiv und absolut sinnvoll - ich frage mich, warum ich das vorher nicht gesehen habe. Gibt es andere Artikel / Bücher darüber oder ist "Gently Clarifying ..." der erste, der sanft klarstellt, dass Null die geeignete Referenz für die Hauptfaktoranalyse ist (wenn man überhaupt das Kaiser-Kriterium verwendet)?

— JHG

2

Möglicherweise: Sie haben möglicherweise einfach bedeutet, dass der kleinste der beobachteten Eigenwerte größer als (dh diejenigen, die sie beibehalten haben) 2,21 betrug. Es gibt eine Einschränkung, die ich hinzufügen möchte: Die erste Form des Aufbewahrungskriteriums muss überarbeitet werden, wenn die Kovarianzmatrix . Bei Verwendung von wird davon ausgegangen, dass die Gesamtvarianz (PCA) der Summe der beobachteten Varianzen der Daten entspricht und in : Diese Zahl könnte durchaus 2,21 sein.

{\bar{λ}}^{r}

$\bar{\lambda}^{\text{r}}$

Σ

$\mathbf{\Sigma}$

Σ

$\mathbf{\Sigma}$

> 1

$>1$

> trace (Σ) / p

$> \text{trace}(\mathbf{\Sigma})/p$

— Alexis

@jhg Kaiser schrieb: "[Guttmans] universell stärkste Untergrenze erfordert, dass wir die Anzahl der positiven latenten Wurzeln der beobachteten Korrelationsmatrix mit quadratischen Vielfachen in der Diagonale finden." Guttman schrieb aber auch über die Korrelationsmatrix, als er die Einheit als die kritische Grenze der Eigenwerte von R (nicht der R-Eindeutigkeiten) beschrieb (unten auf Seite 154 bis oben auf Seite 155), obwohl er die Logik für R nicht explizit beschreibt - Einzigartigkeiten, er winkt früher in der Mitte von Seite 150 zu.

— Alexis

4

Ja, es ist möglich, einen Wert von 2,21 zu haben, wenn die Stichprobengröße nicht unendlich groß ist (oder groß genug ...). Dies ist in der Tat die Motivation für die Entwicklung der Parallelanalyse als Erweiterung der Eigenwert-1-Regel.

Ich zitiere Valle 1999 zu dieser Antwort und habe den Teil kursiv geschrieben, der direkt zu Ihrer Frage spricht.

Auswahl der Anzahl der Hauptkomponenten: Die Varianz des Rekonstruktionsfehlerkriteriums im Vergleich zu anderen Methoden † Sergio Valle, Weihua Li und S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401

Parallele Analyse . Die PA-Methode erstellt grundsätzlich PCA-Modelle für zwei Matrizen: Eine ist die ursprüngliche Datenmatrix und die andere ist eine nicht korrelierte Datenmatrix mit der gleichen Größe wie die ursprüngliche Matrix. Diese Methode wurde ursprünglich von Horn entwickelt, um die Leistung des Scree-Tests zu verbessern. Wenn die Eigenwerte für jede Matrix in derselben Figur dargestellt sind, stellen alle Werte über dem Schnittpunkt die Prozessinformationen dar, und die Werte unter dem Schnittpunkt werden als Rauschen betrachtet. Aufgrund dieser Überschneidung ist die parallele Analysemethode bei der Auswahl der Anzahl der PCs nicht mehrdeutig. Für eine große Anzahl von Abtastwerten sind die Eigenwerte für eine Korrelationsmatrix unkorrelierter Variablen 1. In diesem Fall ist die PA-Methode mit der AE-Methode identisch. Wenn die Abtastwerte jedoch mit einer endlichen Anzahl von Abtastwerten erzeugt werden, überschreiten die anfänglichen Eigenwerte 1, während die endgültigen Eigenwerte unter 1 liegen. Deshalb schlug Horn vor, die Eigenwerte der Korrelationsmatrix für nicht korrelierte Variablen mit denen einer realen Datenmatrix zu vergleichen, die auf basiert die gleiche Stichprobengröße.

— Deathkill14
quelle

Die Frage ist, ob ein alleiniger Wert von 2,21 angemessen sein kann. Da der kursive Teil in Ihrem Zitat von Valle et al. zeigt mit einer endlichen Anzahl von Beobachtungen, dass es (nach meinem Verständnis) immer eine Reihe von abnehmenden Eigenwerten geben wird. Somit gibt es für jeden Faktor aus den Originaldaten einen anderen Eigenwert als die zu vergleichende Parallelanalyse. Wenn die Stichprobengröße groß wird (einige Tausend Individuen), konvergieren die Eigenwerte gegen 1. In diesem Fall konnte ich einen einzigen Vergleich verstehen, aber nur auf der Ebene 1.

— jhg

Bedeutet hier nicht 2.21 für diesen Datensatz und die verwendete Methode (also diese Kombination)? 2.21 ist der Grenzwert, unter dem der Eigenwert zu klein ist? Ich bin mir nicht sicher, was Sie unter "alleinigem Wert" verstehen. Meinen Sie als allgemeine Regel wie die Eigenwert-1-Regel? Der Cutoff ist normalerweise für jede parallele Analyse unterschiedlich.

— Deathkill14

Ich verstehe, dass die parallele Analyse von der Anzahl der Variablen (in meinem Beispiel über "10 Aufgaben") und der Anzahl der Beobachtungen (200 im Beispiel) abhängt. Daher ist es sehr spezifisch für einen einzelnen Datensatz und es kann keine allgemeine Regel wie "Verwenden Sie nicht den Eigenwert 1, verwenden Sie den Eigenwert 2.21" geben. Das wäre sicher Unsinn. Aber für ein konkretes Beispiel mit 200 Beobachtungen zu 10 Variablen und damit 1 bis 10 Faktoren. Kann es sein, dass eine parallele Analyse vorschlägt, Faktoren mit einem Eigenwert von mehr als 2,21 beizubehalten, unabhängig davon, ob der Faktor der erste, zweite, dritte, ... ist?

— JHG

Die Idee des Grenzwerts (z. B. 1 oder 2,21) ist, dass unterhalb dieses Wertes die Variation eines Faktors im Wesentlichen Rauschen ist (im Wesentlichen Rauschen, da dies der Grundlinieneigenwert aus der Zufallsmatrix ist). Normalerweise werden Faktoren vom höchsten zum niedrigsten Eigenwert sortiert, aber das ist vielleicht hauptsächlich für die Interpretierbarkeit wichtig. "Erstes zweites Drittel" sind also nicht unbedingt in Stein gemeißelt. In jedem Fall wird angenommen, dass die Faktoren mit Eigenwerten größer als 2,21 in Ihrem Fall mehr Informationen als Rauschen enthalten. Behalte sie.

— Deathkill14

2

Ihr Beispiel ist sicherlich nicht klar, aber es könnte auch kein Unsinn sein. Betrachten Sie kurz die Möglichkeit, dass das Beispiel seine Entscheidungsregel auf dem Eigenwert des ersten simulierten Faktors basiert, der größer als der reale Faktor derselben Faktornummer ist. Hier ist ein weiteres Beispiel in r :

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Die Daten sind zufällig und es gibt nur drei Variablen, sodass ein zweiter Faktor sicherlich keinen Sinn ergibt, und das zeigt die parallele Analyse. ^* Die Ergebnisse bestätigen auch, was @Alexis zu " The Misunderstanding " gesagt hat .

Angenommen, ich interpretiere diese Analyse wie folgt: „Die parallele Analyse legt nahe, dass nur Faktoren [ nichtKomponenten] mit einem Eigenwert von 1,2E-6 oder mehr sollten beibehalten werden. “ Dies ist in gewissem Maße sinnvoll, da dies der Wert des ersten simulierten Eigenwerts ist, der größer als der "reale" Eigenwert ist, und alle Eigenwerte danach notwendigerweise abnehmen. Es ist eine umständliche Art, dieses Ergebnis zu melden, aber es stimmt zumindest mit der Überlegung überein, dass man Faktoren (oder Komponenten) mit Eigenwerten, die nicht viel größer sind als die entsprechenden Eigenwerte aus simulierten, nicht korrelierten Daten, sehr skeptisch betrachten sollte. Dies sollte konsistent nach der ersten Instanz auf dem Geröllplot der Fall sein, bei der der simulierte Eigenwert den entsprechenden realen Eigenwert überschreitet. Im obigen Beispiel ist der simulierte dritte Faktor sehr geringfügig kleiner als der "echte" dritte Faktor.

^{* In diesem Fall sagt R: "Die parallele Analyse legt nahe, dass die Anzahl der Faktoren = 1 und die Anzahl der Komponenten = 2 ist", aber hoffentlich wissen die meisten von uns, dass sie unserer Software nicht vertrauen können, um unsere Diagramme für uns zu interpretieren ... ich definitiv würde die zweite Komponente nicht beibehalten, nur weil sie unendlich größer als die zweite simulierte Komponente ist.}

— Nick Stauner
quelle

1

Tolle, kreative Idee, wie man den Satz interpretiert. Ich habe mehr als kurz darüber nachgedacht. Das ist nicht der Fall.

— JHG

Oy. Klingt nach seltsamen Artikeln, mit denen Sie arbeiten ...

— Nick Stauner