Wie berechnet man die Korrelation zwischen / innerhalb von Gruppen von Variablen?


13

Ich habe eine Matrix von 1000 Beobachtungen und 50 Variablen, die jeweils auf einer 5-Punkte-Skala gemessen werden. Diese Variablen sind in Gruppen organisiert, es gibt jedoch nicht die gleiche Anzahl von Variablen in jeder Gruppe.

Ich möchte zwei Arten von Korrelationen berechnen:

  1. Korrelation innerhalb von Variablengruppen (zwischen Merkmalen): Ein Maß dafür, ob die Variablen innerhalb der Variablengruppe dasselbe messen.
  2. Korrelation zwischen Gruppen von Variablen: Eine Kennzahl, die davon ausgeht, dass jede Gruppe ein Gesamtmerkmal widerspiegelt, wie jedes Merkmal (jede Gruppe) mit jedem anderen Merkmal in Beziehung steht.

Diese Merkmale wurden zuvor in Gruppen eingeteilt. Ich bin daran interessiert, die Korrelation zwischen den Gruppen zu finden - dh unter der Annahme, dass die Merkmale in der Gruppe dasselbe zugrunde liegende Merkmal messen (nachdem ich # 1 oben abgeschlossen habe - Cronbachs Alpha), hängen die Merkmale selbst zusammen?

Hat jemand Vorschläge, wo ich anfangen soll?


1
Wenn Sie mit R vertraut sind, gibt es ein Paket veganmit Funktionen anosimoder vorzugsweise adonis(permutational MANOVA).
Roman Luštrik

Ich habe Ihre Frage aktualisiert, um zu versuchen, Standardterminologie zu verwenden (dh Variablen nicht Eigenschaften; Gruppen von Variablen anstelle von "Gruppen")
Jeromy Anglim

Antworten:


16

Was @rolando vorgeschlagen hat, scheint ein guter Anfang zu sein, wenn nicht die gesamte Antwort (IMO). Lassen Sie mich mit dem Korrelationsansatz fortfahren, der dem CTT-Framework (Classical Test Theory) folgt. Hier, wie von @Jeromy bemerkt, kann ein zusammenfassendes Maß für Ihre Gruppe von Merkmalen als die Summe (oder Summe) aller Punkte (ein Merkmal, in Ihren Worten) angesehen werden, die zu dem gehören, was ich jetzt als Skala bezeichne. Mit CTT können wir die Neigung oder Haftung einzelner Merkmale als Standort auf einer kontinuierlichen Skala formalisieren, die ein zugrunde liegendes Konstrukt (ein latentes Merkmal) widerspiegelt, obwohl es sich hier lediglich um eine Ordinalskala handelt (dies ist jedoch eine weitere Debatte in der psychometrischen Literatur). .

Was Sie beschrieben haben, hat damit zu tun, was in der Psychometrie als konvergente (inwieweit zu derselben Skala gehörende Elemente miteinander korrelieren) und diskriminante (zu verschiedenen Skalen gehörende Elemente sollten nicht in hohem Maße korrelieren) Gültigkeit bezeichnet wird. Zu den klassischen Techniken gehört die Multi-Trait-Multi-Method (MTMM) -Analyse (Campbell & Fiske, 1959). Nachfolgend sehen Sie eine Darstellung der Funktionsweise (drei Methoden oder Instrumente, drei Konstrukte oder Merkmale):

Bildbeschreibung hier eingeben

>0,7 und zwischen Merkmalen über Methoden hinweg zusammen<.3 ), aber es kann ein formellerer Hypothesentest (über Korrelationspunktschätzungen) durchgeführt werden. Eine feine Sache ist, dass wir die sogenannte "Ruhekorrelation" verwenden, dh wir berechnen die Korrelation zwischen einem Gegenstand (oder Merkmal) und seiner Skala (oder Methode), nachdem wir den Beitrag dieses Gegenstandes zur Summenbewertung dieser Skala entfernt haben (Korrektur für Überlappung).

Auch wenn diese Methode ursprünglich entwickelt wurde, um die konvergente und diskriminante Validität einer bestimmten Anzahl von Merkmalen zu bewerten, die von verschiedenen Messinstrumenten untersucht wurden, kann sie für ein einziges Multiskaleninstrument angewendet werden. Die Eigenschaften werden dann zu Gegenständen, und die Methoden sind nur die verschiedenen Maßstäbe. Eine Verallgemeinerung dieser Methode auf ein einzelnes Instrument wird auch als Multitrait-Skalierung bezeichnet . Elemente, die wie erwartet korrelieren (dh nicht mit einer anderen Skala, sondern mit ihrer eigenen Skala), werden als Skalierungserfolg gewertet. Wir gehen jedoch im Allgemeinen davon aus, dass die verschiedenen Skalen nicht korreliert sind, das heißt, sie zielen auf verschiedene hypothetische Konstrukte ab. Die Mittelung der Korrelationen innerhalb und zwischen den Skalen bietet jedoch eine schnelle Möglichkeit, die interne Struktur Ihres Instruments zusammenzufassen. Eine andere bequeme Möglichkeit besteht darin, eine Cluster-Analyse auf die Matrix der paarweisen Korrelationen anzuwenden und zu sehen, wie Ihre Variablen zusammenhängen.

Zu beachten ist, dass in beiden Fällen die üblichen Einschränkungen beim Arbeiten mit Korrelationsmaßen gelten, dh Sie können Messfehler nicht berücksichtigen, Sie benötigen eine große Stichprobe, Instrumente oder Tests werden als "parallel" angenommen (Tau-Äquivalenz, nicht korrelierte Fehler, gleiche Fehlervarianzen).

Der zweite Teil von @rolando ist ebenfalls interessant: Wenn es keinen theoretischen oder inhaltlichen Hinweis darauf gibt, dass die bereits festgelegte Gruppierung von Elementen sinnvoll ist, müssen Sie eine Möglichkeit finden, die Struktur Ihrer Daten beispielsweise durch explorative Faktorenanalyse hervorzuheben . Aber selbst wenn Sie diesen "Merkmalen innerhalb einer Gruppe" vertrauen, können Sie überprüfen, ob dies eine gültige Annahme ist. Jetzt verwenden Sie möglicherweise ein Bestätigungsfaktor-Analysemodell, um zu überprüfen, ob sich das Lademuster der Artikel (Korrelation eines Artikels mit seiner eigenen Skala) wie erwartet verhält.

Anstelle herkömmlicher faktoranalytischer Methoden können Sie sich auch die Element-Clustering-Methode (Revelle, 1979) ansehen, die sich auf eine Cronbach-Alpha-Split-Regel stützt, um Elemente in homogenen Maßstäben zu gruppieren.

Ein letztes Wort: Wenn Sie R verwenden, gibt es zwei sehr schöne Pakete, die die oben genannten Schritte vereinfachen:

  • psych , bietet Ihnen alles was Sie brauchen für mit Psychometrie Methoden begonnen, einschließlich Faktoranalyse ( fa, fa.parallel, principal), Artikel Clustering ( ICLUSTund verwandte Verfahren), Cronbachs alpha ( alpha); es gibt einen schönen Überblick auf William Revelle Webseite, insbesondere eine Einführung in psychometrischen Theorie mit Anwendungen in R .
  • psy beinhaltet auch die Visualisierung ( scree.plot) und MTMM ( mtmm) von Geröllplots (über PCA + simulierte Datensätze ).

Verweise

  1. Campbell, DT und Fiske, DW (1959). Konvergente und diskriminante Validierung durch die Multitrait-Multimethod-Matrix. Psychologisches Bulletin , 56: 81–105.
  2. Hays, RD und Fayers, P. (2005). Bewertung von Waagen mit mehreren Artikeln. Zur Beurteilung der Lebensqualität in klinischen Studien (Fayers, P. und Hays, R., Hrsg.), S. 41-53. Oxford.
  3. Revelle, W. (1979). Hierarchische Clusteranalyse und die interne Struktur von Tests. Multivariate Behavioral Research , 14: 57-74.

Dies ist vielleicht die interessanteste Antwort, die ich an einer der Börsen gelesen habe und die ich seit 5 Jahren studiere.
d8aninja

Soll die hier enthaltene MTMM-Matrix ein realistisches Beispiel für eine Korrelationsmatrix sein? In diesem Fall stelle ich fest, dass es sich eigentlich nicht um eine positive semidefinite Matrix handelt: Zum Beispiel hat das 4-mal-4-Moll für die Korrelationen der Merkmale 1,2 über die Methoden 1,2 die Determinante -0.0419179. (Da dies ein kleiner negativer Wert ist, geht dies vielleicht einfach auf Ihren Punkt zurück: "Messfehler".)
Semiclassical

7

Die Art und Weise, wie ich Ihre Terminologie lese, besteht darin, zunächst die interne Konsistenz innerhalb jeder Variablengruppe zu bewerten und dann die Korrelationen zwischen den Skalenwerten, die den Durchschnitt jeder Variablengruppe bilden, zu bewerten. Die erste Methode kann mit Cronbachs Alpha und die zweite mit Pearson-Korrelation durchgeführt werden. Dies setzt voraus, dass Sie einigermaßen normale Verteilungen und einigermaßen lineare Beziehungen haben.

Eine aufwendigere und nicht unbedingt erforderliche Methode wäre die Durchführung einer explorativen Faktorenanalyse. Sie würden versuchen, festzustellen, welche Variablen zu einer Gruppe zusammengefasst werden sollten und in welchem ​​Maße diese Faktoren miteinander korrelieren würden. Wenn Sie diese Methode ausprobieren, stellen Sie sicher, dass Sie eine schräge Drehung verwenden, damit diese Korrelationen angezeigt werden. Ob Sie die Hauptkomponentenextraktion oder die Hauptachsenextraktion verwenden, hängt davon ab, ob es sich bei Ihren Variablen um objektive, fehlerfreie oder subjektive Messungen handelt, z. B. um Vermessungsobjekte, die einen bestimmten Fehler enthalten.


Vielen Dank für Ihre Antwort. Ich habe es geschafft, Cronbachs Alpha zu berechnen, aber wie berechnet man in diesem Fall die Pearson-Korrelationskoeffizienten? Ich könnte sie paarweise für jedes einzelne Merkmal berechnen, aber ich möchte wissen, wie man Korrelationen zwischen Gruppen von Merkmalen berechnet. Die Merkmale innerhalb einer Gruppe weisen für jede Beobachtung ähnliche Werte auf. Ich werde meine Frage bearbeiten, um dies etwas klarer zu machen.
Blep

5
  • Die Standardinstrumente, zumindest in der Psychologie, in Ihrer Situation wären explorative und bestätigende Faktorenanalysen, um die Konvergenz der Korrelationsmatrix zwischen Elementen mit einem vorgeschlagenen Modell der Beziehung zwischen Faktoren und Elementen zu bewerten. Die Art und Weise, wie Sie Ihre Frage formuliert haben, deutet darauf hin, dass Sie mit dieser Literatur möglicherweise nicht vertraut sind. Hier sind zum Beispiel meine Notizen zur Skalenkonstruktion und Faktoranalyse und hier ist ein Tutorial in R zur Faktoranalyse von Quick-R . Obwohl es sich lohnt, Ihre spezifische Frage zu beantworten, denke ich, dass Ihre umfassenderen Ziele besser erreicht werden können, wenn faktoranalytische Ansätze zur Bewertung von Skalen mit mehreren Elementen und mehreren Faktoren untersucht werden.

  • Eine andere Standardstrategie wäre, die Gesamtpunktzahl für jede Gruppe von Variablen zu berechnen (was ich als "Skala" bezeichnen würde) und die Skalen zu korrelieren.

  • Viele Tools zur Zuverlässigkeitsanalyse geben die durchschnittliche Korrelation zwischen Elementen an.

  • Wenn Sie die 50 x 50-Matrix der Korrelationen zwischen Elementen erstellt haben, können Sie eine Funktion in R schreiben, die Teilmengen basierend auf Kombinationen von Variablengruppen mittelt. Wenn Sie eine Mischung aus positiven und negativen Elementen haben, erhalten Sie möglicherweise nicht das, was Sie möchten, da die negativen Korrelationen die positiven Korrelationen möglicherweise aufheben.


2

Ich würde vorschlagen, als Ersatz für den Begriff der Korrelation, der nur paarweise definiert ist, den Begriff der gegenseitigen Information und der Integration in Gauß-Modelle zu verwenden.

In Gaußschen Modellen Integration einer Gruppe von VariablenG1 ist definiert als die Entropie der Gruppe:

ich1lÖG(|C1|)

wo C1 ist die Korrelationsmatrix der Variablengruppe G1. Es ist leicht zu sehen, wennG1 besteht nur aus 2 Variablen, seine Integration ist lÖG(1-ρ2), der sich direkt auf den paarweisen Korrelationskoeffizienten der Variablen bezieht ρ.

Um die Interaktion zwischen zwei Gruppen von Variablen zu berechnen, können Sie wechselseitige Informationen verwenden, die nur eine Kreuzentropie zwischen den Gruppen darstellen:

MU12=ich12-ich1-ich2

Ich habe einen Verweis auf diese Begriffe nach einer kurzen Google-Suche gefunden, der hilfreich sein könnte.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.