Gibt es eine Faktoranalyse oder eine PCA für ordinale oder binäre Daten?


28

Ich habe die Hauptkomponentenanalyse (PCA), Exploratory Factor Analysis (EFA) und Confirmatory Factor Analysis (CFA) abgeschlossen und Daten mit einer Likert-Skala (5-Level-Antworten: keine, ein wenig, einige, ..) als kontinuierlich behandelt Variable. Dann wiederholte ich mit Lavaan den CFA, indem ich die Variablen als kategorial definierte.

Ich würde gerne wissen, welche Arten von Analysen für PCA und EFA geeignet und äquivalent wären, wenn Daten ordinaler Natur sind. Und wenn binär .

Ich würde mich auch über Vorschläge für bestimmte Pakete oder Software freuen, die für solche Analysen einfach implementiert werden können.

Antworten:


38

Herkömmliche (lineare) PCA- und Faktoranalysen erfordern Daten auf Skalenebene (Intervall oder Verhältnis). Oft wird davon ausgegangen, dass Likert-Type-Rating-Daten auf Skalenebene vorliegen, da diese Daten einfacher zu analysieren sind. Und die Entscheidung ist manchmal statistisch gerechtfertigt, insbesondere wenn die Anzahl der geordneten Kategorien größer als 5 oder 6 ist. (Die Frage nach dem Datentyp und der Anzahl der Skalierungsstufen ist jedoch rein logisch.)

Was ist, wenn Sie es vorziehen, polytome Likert-Skala als Ordnungszahl zu behandeln? Oder haben Sie dichotome Daten? Ist es möglich, eine explorative Faktoranalyse oder eine PCA für sie durchzuführen?

Derzeit gibt es drei Hauptansätze, um FA (einschließlich PCA als Sonderfall) für kategoriale Ordinal- oder Binärvariablen durchzuführen (lesen Sie auch diesen Bericht über den Fall von Binärdaten und diese Überlegung darüber, was mit der Ordinalskala geschehen könnte).

  1. Optimaler Skalierungsansatz (eine Familie von Anwendungen ). Auch als Categorical PCA (CatPCA) oder nichtlineare FA bezeichnet. In CatPCA werden Ordinalvariablen monoton ("quantifiziert") in ihre "zugrunde liegenden" Intervallversionen transformiert, um die Varianz zu maximieren, die durch die ausgewählte Anzahl von Hauptkomponenten erklärt wird, die aus diesen Intervalldaten extrahiert werden. Das macht die Methode offen zielorientiert (und nicht theoretisch) und wichtig, um im Voraus über die Anzahl der Hauptkomponenten zu entscheiden. Wenn eine echte FA anstelle einer PCA benötigt wird, kann eine übliche lineare FA natürlich an diesen transformierten Variablen durchgeführt werden, die von einer CatPCA ausgegeben werden. CatPCA verhält sich bei binären Variablen (leider?) Wie gewöhnliche PCA, also so, als wären sie stetige Variablen. CatPCA akzeptiert auch nominale Variablen und jede Mischung von Variablentypen (nice).

  2. Abgeleiteter zugrunde liegender variabler Ansatz. Wird auch als PCA / FA bezeichnet und wird für tetrachorische (für binäre Daten) oder polychrone (für ordinale Daten) Korrelationen durchgeführt. Für jede Manifestvariable wird eine Normalverteilung für die zugrunde liegende (dann gruppierte) kontinuierliche Variable angenommen. Dann wird klassisches FA angewendet, um die vorgenannten Korrelationen zu analysieren. Der Ansatz ermöglicht leicht eine Mischung aus Intervall-, Ordinal- und Binärdaten. Ein Nachteil des Ansatzes besteht darin, dass er - beim Ableiten der Korrelationen - keine Hinweise auf die multivariate Verteilung der zugrunde liegenden Variablen hat, - höchstens bivariate Verteilungen "begreifen" kann, sich also nicht auf vollständige Informationen stützt.

  3. Item Response Theory (IRT) -Ansatz. Manchmal auch logistische FA oder latente Merkmalsanalyse genannt . Es wird ein Modell angewendet, das dem Binärlogit-Modell (für Binärdaten) oder dem Proportionallogquoten-Modell (für Ordnungsdaten) sehr nahe kommt. Der Algorithmus ist nicht an die Zerlegung einer Korrelationsmatrix gebunden, so dass er ein wenig von der traditionellen FA entfernt ist, dennoch handelt es sich um eine echte kategoriale FA. "Diskriminierungsparameter" entsprechen in hohem Maße den Belastungen von FA, "Schwierigkeiten" ersetzen jedoch den Begriff "Eindeutigkeiten" von FA. Die Sicherheit der IRT-Anpassung nimmt mit zunehmender Anzahl von Faktoren schnell ab, was eine problematische Seite dieses Ansatzes darstellt. IRT ist auf seine eigene Weise erweiterbar, um gemischte Intervall-, Binär-, Ordnungs- und möglicherweise Nennvariablen einzubeziehen.

Faktor-Scores in den Ansätzen (2) und (3) sind schwieriger abzuschätzen als Faktor-Scores in der klassischen FA oder in Ansatz (1). Es gibt jedoch mehrere Methoden (erwartete oder Maximum-Aposteriori-Methoden, Maximum-Likelihood-Methode usw.).

Die Faktorenanalyse Modell Annahmen sind das gleiche hauptsächlich in den drei Ansätzen wie in der traditionellen FA. Ansatz (1) ist in R, SPSS, SAS (meiner Meinung nach) verfügbar. Die Ansätze (2) und (3) werden hauptsächlich in speziellen Latentvariablen-Paketen implementiert - Mplus, LISREL, EQS.

  1. Polynomialer Ansatz. Das wurde noch nicht vollständig entwickelt. Hauptkomponenten können als Polynomkombinationen von Variablen modelliert werden (die Verwendung von Polynomen ist eine beliebte Methode, um nichtlineare Effekte von Ordinalregressoren zu modellieren.). Auch beobachtete Kategorien können wiederum als diskrete Manifestationen von Polynomkombinationen latenter Faktoren modelliert werden.

  2. Es gibt ein florierendes Feld nichtlinearer Techniken zur Dimensionsreduktion; Einige von ihnen können angewendet oder übernommen werden, um mit kategorialen Daten zu arbeiten (insbesondere binär oder nach dem Binarisieren in einen hochdimensionalen, spärlichen Datensatz).

  3. r

Schauen Sie auch in diese , diese , diese , diese , diese , diese , diese , dieses .


3
Phänomenale Antwort. Ich denke, Sie können das psych-Paket in R verwenden, um die Ansätze in (2) (siehe die Option "cor" für die fa-Funktion) und (3) (siehe die Funktionen irt.fa und irt.poly) zu implementieren ) in unterschiedlichem Maße, und das ltm-Paket kann auch für eine Reihe von IRT-Modellen verwendet werden.
jsakaluk

1
Sie können sich also unterscheiden. Ich habe mehrmals Inventarerstellung / -validierung mit "nichtlinearer FA" (CatPCA-then-EFA) durchgeführt und habe bessere Ergebnisse als mit gewöhnlicher (linearer) EFA gefunden. Die Vorgehensweise, die ich gewählt habe, war ähnlich wie bei der normalen FA. Der einzige Unterschied bestand darin, dass ich für jede Analyse - für jeden Satz von Elementen, die ich ausprobiere, und für jede Anzahl von Faktoren, die ich extrahiere - CatPCA-then (für die quantifizierten Variablen) -EFA pas de deux durchgeführt habe .
TTNPHNS

@jsakaluk, Vielen Dank für die Information. (Ich bin kein R-User, kenne seine phänomenale Kapazität also nur schlecht).
TTNPHNS

Vielen Dank für so gründliche Antworten. @ttnphns Ich habe heute die meiste Zeit damit verbracht, CATPCA in SPSS 23 zu implementieren. Es gelang mir, zwei Lernprogramme zu finden (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) konnte einige meiner eigenen Fragen nicht beantworten. Könnten Sie eine gute Anlaufstelle für technische Fragen vorschlagen? Danke nochmal.
user116948

1
@ user116948, Wenn Sie Probleme haben, mit SPSS umzugehen: Suchen und lesen Sie zunächst die CATPCA-Fallstudie im Untermenü "SPSS-Fallstudien" im Menü "Hilfe". Zweitens durchsuchen Sie alle Fragen zu CATPCA, die bereits auf dieser Site gestellt wurden. Drittens: Wenn Sie noch Fragen haben - stellen Sie diese als neue Frage auf der Website. Keine Sorge: Wenn es "zu technisch" ist, wird es möglicherweise an StackOveflow übertragen. Forth: Pick eine SPSS Community dort Ihre Frage zu stellen (SPSSXL ist die beste). Grüße an dich.
TTNPHNS
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.