Die Frage nach dichotomen oder binären Variablen in der PCA- oder Faktoranalyse ist ewig. Es gibt polare Meinungen von "es ist illegal" bis "es ist in Ordnung", durch etwas wie "Sie können es tun, aber Sie werden zu viele Faktoren bekommen". Meine eigene aktuelle Meinung ist wie folgt. Erstens halte ich die binäre beobachtete Variable für deskret und es ist nicht angebracht, sie in irgendeiner Weise als stetig zu behandeln. Kann diese diskrete Variable einen Faktor oder eine Hauptkomponente hervorrufen?
Faktoranalyse (FA). Faktor per Definition ist ein kontinuierlicher latenter Faktor, der beobachtbare Variablen lädt ( 1 , 2 ). Infolgedessen kann letztere nur kontinuierlich sein (oder, praktischer ausgedrückt, Intervall), wenn sie durch einen Faktor ausreichend belastet ist. Außerdem geht FA aufgrund seiner linearen Regression davon aus, dass der Rest - nicht belastete - Teil, der als Eindeutigkeit bezeichnet wird, ebenfalls stetig ist, so dass beobachtbare Variablen auch dann stetig sein sollten, wenn sie geringfügig belastet sind. Binäre Variablen
können sich daher in FA nicht selbst bestimmen. Es gibt jedoch mindestens zwei Möglichkeiten: (A) Nehmen Sie an, dass die Dichotomien, wenn sie aufgeraut sind, die zugrunde liegenden Variablen fortsetzen, und führen Sie FA mit tetrachorischen - und nicht mit Pearson-Korrelationen durch; (B) Nehmen Sie an, dass der Faktor eine dichotome Variable nicht linear, sondern logistisch lädt, und führen Sie eine Latent Trait Analysis (alias Item Response Theory) anstelle einer linearen FA durch. Lesen Sie mehr .
Hauptkomponentenanalyse (PCA). PCA hat zwar viel mit FA zu tun, ist aber keine Modellierung, sondern nur eine zusammenfassende Methode. Komponenten laden Variablen nicht im gleichen konzeptionellen Sinne wie Faktoren Variablen laden. In PCA laden Komponenten Variablen und
Variablen Komponenten. Diese Symmetrie beruht darauf, dass PCA an sich lediglich eine Rotation von Variablenachsen im Raum ist. Binäre Variablen bieten selbst keine echte Kontinuität für eine Komponente - da sie nicht kontinuierlich sind, aber die Pseudokontinuität kann durch den Winkel der PCA-Rotation bereitgestellt werden, der als beliebig erscheinen kann. In PCA können Sie also im Gegensatz zu FA scheinbar kontinuierliche Dimensionen (gedrehte Achsen) mit rein binären Variablen (nicht gedrehte Achsen) erhalten - Winkel ist die Ursache für Kontinuität1
(0,0)
2
Einige verwandte Fragen zu FA oder PCA von Binärdaten: 1 , 2 , 3 , 4 , 5 , 6 . Die dortigen Antworten können möglicherweise andere als meine Meinungen zum Ausdruck bringen.
1Ebenenobjekte - für Variablen als Punkte oder Kategorien als Punkte - sind ihre Koordinaten im Hauptachsenraum tatsächlich legitime Skalierungswerte. Aber nicht für Datenpunkte (Datenfälle) von Binärdaten - ihre "Scores" sind pseudokontinuierliche Werte: kein intrinsisches Maß, nur einige Überlagerungskoordinaten.
21
Beispiel für Binärdaten (nur ein einfacher Fall von zwei Variablen):
Scatterplots unter Anzeige der Datenpunkte ein wenig jittered und zeigen Hauptkomponentenachsen als diagonale Linien (Frequenz zu machen) auf sie tragenden Komponentenwerte [diese Partituren nach meinen Anspruch sind pseudo kontinuierliche Werte]. Das linke Diagramm auf jedem Bild zeigt PCA basierend auf "rohen" Abweichungen vom Ursprung, während das rechte Diagramm PCA basierend auf skalierten Abweichungen (Diagonale = Einheit) davon zeigt.
1) Traditionelles PCA setzt den (0,0)
Ursprung in einen Datenmittelwert (Schwerpunkt). Bei binären Daten ist der Mittelwert kein möglicher Datenwert. Es ist jedoch der physikalische Schwerpunkt. PCA maximiert die Variabilität.
(Vergessen Sie auch nicht, dass in einer binären Variablen Mittelwert und Varianz streng miteinander verknüpft sind, sie sind sozusagen "eine Sache". Standardisierung / Skalierung von binären Variablen, d. H Die aktuelle Instanz bedeutet, dass Sie ausgeglichenere Variablen mit größerer Varianz behindern, um den PCA stärker zu beeinflussen, als dies bei stärker verzerrten Variablen der Fall ist.)
2) Sie können PCA in nicht zentrierten Daten durchführen, dh den Ursprung (0,0)
an den Ort gehen lassen (0,0)
. Es ist PCA auf MSCP ( X'X/n
) - Matrix oder auf Cosinus-Ähnlichkeitsmatrix. PCA maximiert die Ausstülpbarkeit aus dem Zustand ohne Attribute.
3) Sie können den Ursprung (0,0)
am Datenpunkt der kleinsten Summe von Manhattan-Abständen zu allen anderen Datenpunkten liegen lassen - L1-Medoid. Medoid wird im Allgemeinen als der "repräsentativste" oder "typischste" Datenpunkt verstanden. Daher maximiert PCA die Atypizität (zusätzlich zur Häufigkeit). In unseren Daten fiel das L1-Medoid auf die (1,0)
ursprünglichen Koordinaten.
4) Oder setzen Sie den Ursprung (0,0)
an die Datenkoordinaten, bei denen die Frequenz der Modus mit den höchsten Multivariaten ist. Es ist die (1,1)
Datenzelle in unserem Beispiel. PCA maximiert die Junior-Modi (wird von ihnen gesteuert).
5) In der Antwort wurde erwähnt, dass tetrachorische Korrelationen eine gute Sache sind, um eine Faktoranalyse für binäre Variablen durchzuführen. Das Gleiche gilt für PCA: Sie können PCA basierend auf tetrachorischen Korrelationen durchführen. Dies bedeutet jedoch, dass Sie eine zugrunde liegende kontinuierliche Variable innerhalb einer binären Variablen annehmen.