Ich bin ein Doktorand in Informatik. Ich habe eine explorative Faktorenanalyse für ein Forschungsprojekt durchgeführt. Meine Kollegen (die das Projekt leiten) verwenden SPSS, während ich R. bevorzuge. Dies spielte keine Rolle, bis wir eine große Diskrepanz zwischen den beiden statistischen Paketen entdeckten.
Wir verwenden das Prinzipalachsen-Factoring als Extraktionsmethode (bitte beachten Sie, dass mir der Unterschied zwischen PCA- und Faktoranalyse bekannt ist und dass wir PCA zumindest nicht absichtlich verwenden). Nach dem, was ich gelesen habe, sollte dies der "Hauptachsen" -Methode in R und entweder "Hauptachsenfaktor" oder "ungewichtete kleinste Quadrate" in SPSS entsprechen, gemäß der R-Dokumentation . Wir verwenden eine Methode der schrägen Rotation (speziell Promax ), da wir korrelierte Faktoren erwarten und die Mustermatrix interpretieren .
Wenn Sie die beiden Prozeduren in R und SPSS ausführen, gibt es große Unterschiede. Die Mustermatrix gibt verschiedene Ladungen an. Obwohl dies den variablen Beziehungen mehr oder weniger den gleichen Faktor verleiht, gibt es einen Unterschied von bis zu 0,15 zwischen den entsprechenden Ladungen, was mehr zu sein scheint, als bei einer anderen Implementierung der Extraktionsmethode und Promax-Rotationen zu erwarten wäre. Dies ist jedoch nicht der verblüffendste Unterschied.
Die kumulative Varianz, die durch die Faktoren erklärt wird, liegt bei den SPSS-Ergebnissen bei etwa 40% und bei den R-Ergebnissen bei 31%. Dies ist ein großer Unterschied und hat dazu geführt, dass meine Kollegen SPSS anstelle von R verwenden wollten. Ich habe kein Problem damit, aber ein so großer Unterschied lässt mich glauben, dass wir etwas falsch interpretieren, was ein Problem ist.
SPSS trübt das Wasser noch mehr und meldet verschiedene Arten der erklärten Varianz, wenn wir das ungewichtete Faktorisieren der kleinsten Quadrate ausführen. Der Anteil der erklärten Varianz nach Anfangseigenwerten beträgt 40%, während der Anteil der erklärten Varianz aus den Extraktionssummen der quadratischen Lasten (SSL) 33% beträgt. Dies lässt mich denken, dass die anfänglichen Eigenwerte nicht die richtige Zahl sind (ich vermute, dass dies die Varianz ist, die vor der Rotation erklärt wurde, obwohl ich nicht weiß, ob sie so groß ist). Noch verwirrender ist, dass SPSS auch Rotations-SSL anzeigt, aber den Prozentsatz der erklärten Varianz nicht berechnet (SPSS gibt an, dass ich aufgrund von Korrelationsfaktoren keine SSLs hinzufügen kann, um die Gesamtvarianz zu ermitteln, was mit den von mir beobachteten Berechnungen sinnvoll ist). Die gemeldeten SSLs von R stimmen nicht mit diesen überein, und R gibt an, dass sie 31% der Gesamtvarianz beschreiben. Die SSLs von R stimmen am besten mit den Rotations-SSLs überein. Die Eigenwerte von R aus der ursprünglichen Korrelationsmatrix stimmen mit den Anfangseigenwerten von SPSS überein.
Beachten Sie auch, dass ich mit verschiedenen Methoden herumgespielt habe und dass ULS und PAF von SPSS am ehesten mit der PA-Methode von R übereinstimmen.
Meine spezifischen Fragen:
- Welchen Unterschied sollte ich zwischen R und SPSS bei Implementierungen der Faktoranalyse erwarten?
- Welche der Quadratsummen von SPSS soll ich interpretieren, anfängliche Eigenwerte, Extraktion oder Rotation?
- Gibt es noch andere Probleme, die ich möglicherweise übersehen habe?
Meine Anrufe an SPSS und R lauten wie folgt:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
R:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)