Was sind die Gefahren bei der Berechnung von Pearson-Korrelationen (anstelle von tetrachorischen) für binäre Variablen in der Faktoranalyse?

Ich recherchiere über Lernspiele und einige meiner aktuellen Projekte beinhalten die Verwendung von Daten aus BoardGameGeek (BGG) und VideoGameGeek (VGG), um die Beziehungen zwischen Designelementen von Spielen zu untersuchen (dh "im Zweiten Weltkrieg spielen", "Würfeln"). ) und Spielerbewertungen dieser Spiele (dh Punktzahlen von 10). Jedes dieser Designelemente entspricht einem Tag im BGG- oder VGG-System, sodass jedes Element im Wesentlichen eine dichotome Variable ist. Ein Spiel hat eine 1 für jedes Tag, das in der Datenbank vorhanden ist, und eine 0 für jedes Tag, das nicht vorhanden ist.

Es gibt Dutzende dieser Tags, daher möchte ich die explorative Faktoranalyse (EFA) verwenden, um eine überschaubare Anzahl von "Genres" zu entwickeln, die Muster im Spieldesign erfassen. Wenn ich mehrere Quellen konsultiere, verstehe ich, dass ich, da ich mit dichotomen Variablen arbeite , polychrone Korrelationen ( insbesondere hier tetrachorisch ) anstelle von Pearson- Korrelationen verwenden sollte , wenn ich meine Faktoren erarbeite (es gibt auch andere Optionen - wie die Analyse latenter Merkmale - da draußen, aber das ist das, was ich gerade erforsche).

Aus Neugier habe ich zwei Sätze von Faktoren entwickelt, einen mit Pearson-Korrelationen und einen mit polychromen Korrelationen (jedes Mal die gleiche Anzahl von Faktoren). Mein Problem ist, dass die mit Pearson-Korrelationen berechneten Faktoren viel sinnvoller und leichter zu interpretieren sind als die mit polychromen Korrelationen berechneten Faktoren. Mit anderen Worten, die "Genres" aus der ersten Reihe von Faktoren sind intuitiv sinnvoll und entsprechen meinem Verständnis, wie Spiele normalerweise gestaltet sind. Dies ist bei der zweiten Reihe von Faktoren nicht der Fall.

Einerseits möchte ich sicherstellen, dass ich die Annahmen der von mir verwendeten Tests erfülle, auch wenn dies meine Ergebnisse weniger hübsch macht. Auf der anderen Seite denke ich, dass ein Teil des Ziels der Faktoranalyse und (allgemeineren) Modellbildung darin besteht, etwas Nützliches zu finden, und die nützlicheren Informationen entstehen, wenn ich "gegen die Regeln verstoße". Reicht die Notwendigkeit eines nützlichen Modells aus, um die Annahmen dieses Tests zu überwiegen? Was genau sind die Konsequenzen der Verwendung von Pearson-Korrelationen anstelle von polychromen?

r categorical-data factor-analysis binary-data

— Spencer Greenhalgh
quelle

Die Annahmen der zugrunde liegenden multivariaten Normalität sind bei Daten mit mehr als drei Dimensionen so stark, dass die polychromen Korrelationen nicht mehr so viel Sinn ergeben. Der Grad der Modellfehlspezifikation mit polychromen Korrelationen macht Ihre Analyse höchstwahrscheinlich ziemlich nutzlos. Ich bin mir jedoch nicht sicher, warum Sie diese Korrelationen überhaupt benötigen: Wenn Sie eine eindeutige Ergebnisvariable (Bewertung) und eine Reihe erklärender Variablen (Entwurfsmerkmale) haben, benötigen Sie eine Regressionsanalyse, nicht die Faktoranalyse.

— StasK

Die @StasK-Regressionsanalyse ist mein oberstes Ziel, aber ich habe über 100 erklärende Variablen und möchte diese auf eine überschaubare Zahl reduzieren.

— Spencer Greenhalgh

Darüber hinaus ist für solche Probleme die Klassifizierung ein Ziel an sich.

— Pere

Die lineare Faktoranalyse ist theoretisch logisch nur für kontinuierliche Variablen . Wenn Variablen nicht stetig sind, sondern beispielsweise dichotom, besteht eine Möglichkeit für Sie darin, zugrunde liegende kontinuierliche Variablen dahinter zuzulassen und zu erklären, dass die beobachteten Variablen die gruppierten zugrunde liegenden oder wahren Variablen sind. Sie können eine dichotome Variable nicht ohne einen fremden "Tutor" in eine Skala eins quantifizieren, aber Sie können trotzdem auf die Korrelationen schließen, die wären, wenn Ihre Variablen noch nicht gruppiert worden wären und "ursprünglich" kontinuierlich normalverteilt wären. Und das ist die TetrachoreKorrelationen (oder polychrom, wenn Sie anstelle von binären Ordnungsvariablen haben). Die Verwendung von tetrachorischen Korrelationen (abgeleitete Pearson-Korrelationen) anstelle von Phi-Korrelationen (beobachtete Pearson-Korrelationen mit dichotomen Daten) ist daher eine logische Handlung.

Phi-Korrelationen, die für dichotom gruppierte Variablen berechnet wurden, sind sehr empfindlich gegenüber dem Schnittpunkt (auch bekannt als "Schwierigkeitsgrad der Aufgabe"), über den die Gruppierung stattgefunden hat. Ein Variablenpaar könnte hoffen, die theoretische Grenze nur dann zu erreichen, wenn sie über dem äquivalenten Schnittpunkt zusammengefasst sind. Je unterschiedlicher der Schnittpunkt in ihnen war, desto niedriger ist die maximale Grenze des möglichen zwischen ihnen. (Dies ist der allgemeine Effekt der Gleichheit der Randverteilungen auf den möglichen Bereich für Pearson $r=1$ $r$ $r$ Bei dichotomen Variablen ist dieser Effekt jedoch am schärfsten, da zu wenige Werte angenommen werden können.) Daher können Phi-Korrelationen in ihrer Matrix aufgrund der unterschiedlichen Randverteilungen in den dichotomen Variablen als ungleich deflationiert angesehen werden. Sie wissen nicht, ob eine Korrelation "wirklich" größer ist als eine andere oder aufgrund der unterschiedlichen Schnittpunkte in diesen beiden Variablenpaaren. Die Anzahl der zu extrahierenden Faktoren (nach Kriterien wie Kaisers "Eigenwert> 1") wird erhöht: Einige extrahierte "Faktoren" sind das Ergebnis der Ungleichmäßigkeit, der Verschiedenartigkeit der Schnittpunkte - keine wesentlichen latenten Faktoren. Dies ist ein praktischer Grund, warum nicht Phi-Korrelationen (zumindest in ihrer rohen - nicht neu skalierten) Form verwendet werden.

In Simulations- / Binning-Studien wurde nachgewiesen, dass sich die auf tetrachorischen Korrelationen basierende Faktoranalyse verschlechtert, wenn die Matrix viele starke (> 0,7) Korrelationen enthält. Die tetrachorische Korrelation ist nicht ideal: Wenn die Schnittpunkte der korrelierenden zugrunde liegenden Variablen an den Gegensätzen liegen (und somit die Randverteilungen im dichotomen Bereich entgegengesetzt verzerrt sind), während die zugrunde liegende Assoziation stark ist, überschätzt der tetrachorische Koeffizient sie weiter. Beachten Sie auch, dass die tetrachorische Korrelationsmatrix in nicht großen Proben nicht unbedingt positiv semidefinit ist und daher möglicherweise korrigiert werden muss ("Glättung"). Dennoch wird es von vielen als besser angesehen, als eine Faktoranalyse für einfache Pearson (phi) -Koeffizienten durchzuführen.

Aber warum überhaupt eine Faktoranalyse für Binärdaten? Es gibt andere Optionen, einschließlich Latent Trait / IRT (eine Form der "logistischen" Faktoranalyse) und Multiple Correspondence Analysis (wenn Sie Ihre binären Variablen als nominelle Kategorien sehen).

Siehe auch:

Annahmen der linearen Faktoranalyse.
Rescaled Pearson könnte eine (aber nicht sehr überzeugende) Alternative zu tetrachotischem für FA sein. $r$ $r$

— ttnphns
quelle

Überprüfen Sie auch stats.stackexchange.com/a/219814/3277

— ttnphns