Herkömmliche (lineare) PCA- und Faktoranalysen erfordern Daten auf Skalenebene (Intervall oder Verhältnis). Oft wird davon ausgegangen, dass Likert-Type-Rating-Daten auf Skalenebene vorliegen, da diese Daten einfacher zu analysieren sind. Und die Entscheidung ist manchmal statistisch gerechtfertigt, insbesondere wenn die Anzahl der geordneten Kategorien größer als 5 oder 6 ist. (Die Frage nach dem Datentyp und der Anzahl der Skalierungsstufen ist jedoch rein logisch.)
Was ist, wenn Sie es vorziehen, polytome Likert-Skala als Ordnungszahl zu behandeln? Oder haben Sie dichotome Daten? Ist es möglich, eine explorative Faktoranalyse oder eine PCA für sie durchzuführen?
Derzeit gibt es drei Hauptansätze, um FA (einschließlich PCA als Sonderfall) für kategoriale Ordinal- oder Binärvariablen durchzuführen (lesen Sie auch diesen Bericht über den Fall von Binärdaten und diese Überlegung darüber, was mit der Ordinalskala geschehen könnte).
Optimaler Skalierungsansatz (eine Familie von Anwendungen ). Auch als Categorical PCA (CatPCA) oder nichtlineare FA bezeichnet. In CatPCA werden Ordinalvariablen monoton ("quantifiziert") in ihre "zugrunde liegenden" Intervallversionen transformiert, um die Varianz zu maximieren, die durch die ausgewählte Anzahl von Hauptkomponenten erklärt wird, die aus diesen Intervalldaten extrahiert werden. Das macht die Methode offen zielorientiert (und nicht theoretisch) und wichtig, um im Voraus über die Anzahl der Hauptkomponenten zu entscheiden. Wenn eine echte FA anstelle einer PCA benötigt wird, kann eine übliche lineare FA natürlich an diesen transformierten Variablen durchgeführt werden, die von einer CatPCA ausgegeben werden. CatPCA verhält sich bei binären Variablen (leider?) Wie gewöhnliche PCA, also so, als wären sie stetige Variablen. CatPCA akzeptiert auch nominale Variablen und jede Mischung von Variablentypen (nice).
Abgeleiteter zugrunde liegender variabler Ansatz. Wird auch als PCA / FA bezeichnet und wird für tetrachorische (für binäre Daten) oder polychrone (für ordinale Daten) Korrelationen durchgeführt. Für jede Manifestvariable wird eine Normalverteilung für die zugrunde liegende (dann gruppierte) kontinuierliche Variable angenommen. Dann wird klassisches FA angewendet, um die vorgenannten Korrelationen zu analysieren. Der Ansatz ermöglicht leicht eine Mischung aus Intervall-, Ordinal- und Binärdaten. Ein Nachteil des Ansatzes besteht darin, dass er - beim Ableiten der Korrelationen - keine Hinweise auf die multivariate Verteilung der zugrunde liegenden Variablen hat, - höchstens bivariate Verteilungen "begreifen" kann, sich also nicht auf vollständige Informationen stützt.
Item Response Theory (IRT) -Ansatz. Manchmal auch logistische FA oder latente Merkmalsanalyse genannt . Es wird ein Modell angewendet, das dem Binärlogit-Modell (für Binärdaten) oder dem Proportionallogquoten-Modell (für Ordnungsdaten) sehr nahe kommt. Der Algorithmus ist nicht an die Zerlegung einer Korrelationsmatrix gebunden, so dass er ein wenig von der traditionellen FA entfernt ist, dennoch handelt es sich um eine echte kategoriale FA. "Diskriminierungsparameter" entsprechen in hohem Maße den Belastungen von FA, "Schwierigkeiten" ersetzen jedoch den Begriff "Eindeutigkeiten" von FA. Die Sicherheit der IRT-Anpassung nimmt mit zunehmender Anzahl von Faktoren schnell ab, was eine problematische Seite dieses Ansatzes darstellt. IRT ist auf seine eigene Weise erweiterbar, um gemischte Intervall-, Binär-, Ordnungs- und möglicherweise Nennvariablen einzubeziehen.
Faktor-Scores in den Ansätzen (2) und (3) sind schwieriger abzuschätzen als Faktor-Scores in der klassischen FA oder in Ansatz (1). Es gibt jedoch mehrere Methoden (erwartete oder Maximum-Aposteriori-Methoden, Maximum-Likelihood-Methode usw.).
Die Faktorenanalyse Modell Annahmen sind das gleiche hauptsächlich in den drei Ansätzen wie in der traditionellen FA. Ansatz (1) ist in R, SPSS, SAS (meiner Meinung nach) verfügbar. Die Ansätze (2) und (3) werden hauptsächlich in speziellen Latentvariablen-Paketen implementiert - Mplus, LISREL, EQS.
Polynomialer Ansatz. Das wurde noch nicht vollständig entwickelt. Hauptkomponenten können als Polynomkombinationen von Variablen modelliert werden (die Verwendung von Polynomen ist eine beliebte Methode, um nichtlineare Effekte von Ordinalregressoren zu modellieren.). Auch beobachtete Kategorien können wiederum als diskrete Manifestationen von Polynomkombinationen latenter Faktoren modelliert werden.
Es gibt ein florierendes Feld nichtlinearer Techniken zur Dimensionsreduktion; Einige von ihnen können angewendet oder übernommen werden, um mit kategorialen Daten zu arbeiten (insbesondere binär oder nach dem Binarisieren in einen hochdimensionalen, spärlichen Datensatz).
r
Schauen Sie auch in diese , diese , diese , diese , diese , diese , diese , dieses .