Korrelation zwischen Kategorien zwischen kategorialen nominalen Variablen

9

Ich habe einen Datensatz mit zwei kategorialen nominalen Variablen (beide mit 5 Kategorien). Ich würde gerne wissen, ob (und wie) ich mögliche Korrelationen zwischen den Kategorien aus diesen beiden Variablen identifizieren kann.

Mit anderen Worten, ob zum Beispiel die Ergebnisse der Kategorie in Variable 1 eine starke Korrelation mit einer bestimmten Kategorie in Variable 2 aufweisen. Da ich zwei Variablen mit 5 Kategorien habe, würde die Gesamtkorrelationsanalyse für alle Kategorien auf 25 Ergebnisse reduziert (Zumindest wenn es so funktioniert, wie ich es hoffe / erwarte). $i$ $j$

Ich habe versucht, das Problem in konkrete Fragen zu formulieren:

Frage 1: Angenommen, ich übertrage die kategoriale Variable in 5 verschiedene Dummy-Variablen pro Wert (Kategorie). Das gleiche Verfahren führe ich auch für die zweite Variable aus. Dann möchte ich die Korrelation zwischen Dummy 1.i und 2.i (zum Beispiel) bestimmen. Ist es für mich statistisch korrekt, dieses Verfahren mittels eines gewöhnlichen Korrelationskoeffizientenverfahrens auszuführen? Bietet der aus diesem Verfahren resultierende Korrelationskoeffizient einen angemessenen Einblick in eine Korrelation zwischen den beiden Dummy-Variablen?

Frage 2: Wenn die in Frage 1 beschriebene Prozedur eine gültige Prozedur ist, gibt es eine Möglichkeit, diese Analyse für alle Kategorien von 2 (oder vielleicht mehr) kategorialen nominalen Variablen gleichzeitig durchzuführen?

Das Programm, das ich benutze, ist SPSS (20).

— user32378
quelle

Die von @Michael Mayer gemachten Punkte gelten für die überarbeitete Frage.

— Nick Cox

1

Wenn zwei Variablen nicht korreliert sind, haben Sie 1/25 in jeder Zelle mit einer 5x5-Frequenzmatrix. Daher statistics , wobei und - beobachtete Häufigkeit für eine von 5 Werte von zwei Variablen sollten geeignet sein.

χ^{2}

$\chi^2$

\sum_{x y} \frac{(O - E)^{2}}{E}

$\sum_{xy}\frac{(O-E)^2}{E}$

E = \sum_{x y} O_{x y} / 25

$E=\sum_{xy}O_{xy}/25$

O_{x y}

$O_{xy}$

— Aksakal

3

@Aksakal "Nicht korreliert" ist hier der falsche Begriff; Die Variablen sind nominal, daher sind keine Korrelationen definiert. Ich denke, Sie meinen unabhängig, aber Unabhängigkeit bedeutet auch nicht gleiche Frequenzen. Die Zellfrequenzen unter Unabhängigkeit hängen von den Grenzfrequenzen ab.

— Nick Cox

6

Die „Focal“ Assoziation zwischen Kategorie von einer Sollgröße und Kategorie des anderen wird durch die Frequenz ausgedrückt Rest in der Zelle , wie wir wissen. Wenn der Rest 0 ist, bedeutet dies, dass die Frequenz den Erwartungen entspricht, wenn die beiden nominalen Variablen nicht zugeordnet sind. Je größer der Rest ist, desto größer ist die Assoziation aufgrund der überrepräsentierten Kombination in der Stichprobe. Der große negative Rest sagt äquivalent über die unterrepräsentierte Kombination aus. Frequenzrest ist also das, was Sie wollen. $i$ $j$ $ij$ $ij$

Rohe Residuen sind jedoch nicht geeignet, da sie von den Grenzsummen und der Gesamtsumme sowie der Tabellengröße abhängen: Der Wert ist in keiner Weise standardisiert. SPSS kann Ihnen jedoch standardisierte Residuen anzeigen, die auch als Pearson-Residuen bezeichnet werden. St. Residuum ist das Residuum geteilt durch eine Schätzung seiner Standardabweichung (gleich der Quadratwurzel des erwarteten Wertes). St. Residuen einer Tabelle haben Mittelwert 0 und st. dev. 1; deshalb st. Residuum dient einem z-Wert, wie z-Wert in einer Verteilung einer quantitativen Variablen (tatsächlich ist es z in der Poisson-Verteilung). St. Residuen sind zwischen verschiedenen Tabellen gleicher Größe und gleicher Gesamt- . Die Chi-Quadrat-Statistik einer Kontingenztabelle ist die Summe der quadratischen st. Residuen $N$ drin. Vergleich st. Residuen in einer Tabelle und in Tabellen mit gleichem Volumen helfen dabei, die bestimmten Zellen zu identifizieren, die am meisten zur Chi-Quadrat-Statistik beitragen.

SPSS zeigt auch angepasste Residuen an (= angepasste standardisierte Residuen). Adj. Residuum ist das Residuum geteilt durch eine Schätzung seines Standardfehlers. Interessant, dass adj. Der Rest ist gerade gleich , wobei die Gesamtsumme und die Pearson- Korrelation (Alias-Phi-Korrelation) zwischen Dummy- Variablen ist, die den Kategorien und der beiden nominalen Variablen entsprechen . Dieses ist genau das, was Sie sagen, dass Sie berechnen möchten. Adj. Residuum steht in direktem Zusammenhang damit. $\sqrt{N}r_{ij}$ $N$ $r_{ij}$ $i$ $j$ $r$

Im Gegensatz zu st. Rest, adj. Rest wird auch auf die Form der Randverteilungen in der Tabelle genormt WRT (es berücksichtigt die erwartete Frequenz nicht nur in der Zelle , sondern auch in den Zellen außerhalb seiner Reihe und seiner Säule) und so direkt die sehen können Stärke der Verbindung zwischen den Kategorien und - ohne sich Gedanken darüber zu machen, ob ihre Grenzwerte im Vergleich zu den anderen Kategorien groß oder klein sind. Adj. Residuum ist auch wie ein Z-Score, aber jetzt ist es wie Z der Normalverteilung (nicht Poisson). Wenn adj. Der Rest liegt über 2 oder unter -2. Sie können daraus schließen, dass er auf Stufe signifikant ist . Adj. Residuen werden immer noch von bewirkt ; $i$ $j$ p<0.05 $^1$ $N$ $r$ 's sind nicht, aber Sie können alle s von adj erhalten. Residuen nach der obigen Formel, ohne Zeit für die Erstellung von Dummy-Variablen aufzuwenden. $r$ $^2$

In Bezug auf Ihre zweite Frage zu 3-Wege-Kategorienbindungen ist dies im Rahmen der allgemeinen loglinearen Analyse möglich, bei der auch Residuen angezeigt werden. Die praktische Verwendung von 3-Wege-Zellresten ist jedoch bescheiden: 3 (+) - Wege-Assoziationsmaßnahmen sind nicht leicht zu standardisieren und nicht leicht zu interpretieren.

$^1$ In st. Die normale Kurve ist der Schnittpunkt von 2,5% Schwanz, also 5%, wenn Sie beide Schwänze wie bei einer zweiseitigen alternativen Hypothese betrachten. $1.96 \approx 2$

$^2$ Daraus folgt, dass die Signifikanz des angepassten Residuums in Zelle gleich der Signifikanz von . Wenn die Tabelle nur 2 Spalten enthält und Sie einen Z-Test der Proportionen zwischen und , werden die Spaltenproportionen für Zeile , die Der p-Wert dieses Tests entspricht der Signifikanz beider (beliebiger) Adj. Residuen in Zeile der 2-Spalten-Tabelle. $ij$ $r_{ij}$ $\text {Pr}(i,1)$ $\text {Pr}(i,2)$ $i$ $i$

— ttnphns
quelle

1

Direkt aus einem Dokument über bivariate Statistiken mit SPSS, das hier lebt :

Das Chi-Quadrat ist eine nützliche Technik, da Sie damit feststellen können, ob eine Beziehung zwischen zwei Ordnungsvariablen, zwei Nominalvariablen oder zwischen einer Ordnungszahl und einer Nominalvariablen besteht. Du siehst dir den Assymp an. Sig-Spalte und wenn sie kleiner als 0,05 ist, ist die Beziehung zwischen den beiden Variablen statistisch signifikant.

— Zhubarb
quelle

4

OK, aber drei Murren, ein Dur, zwei sehr Moll. Das Chi-Quadrat auf zwei Ordnungsvariablen ignoriert die Reihenfolge. Dies ist nicht das SPSS-Dokument, sondern eine elementare Einführung durch eine andere Person, die, wie bereits erwähnt, zu stark vereinfacht wird. Sie haben "Asymp" nicht kopiert. richtig (Beispiel auf der vorherigen Seite). Das größere Problem für das OP ist, dass Korrelation hier das falsche Wort ist: "Assoziation" ist das Schlüsselwort für das Messen, Testen und (am besten von allen) Modellieren der Assoziation.

— Nick Cox

1

Danke, ich habe the SPSS documentetwas bearbeitet , es war nicht meine Absicht, ihm eine unangemessene Authentizität beizumessen.

— Zhubarb