Warum ist es nicht in Ordnung, eine Pearson-Korrelation für Proportionsdaten durchzuführen?


10

Ein Online-Modul, das ich studiere, besagt, dass man niemals die Pearson-Korrelation mit Proportionsdaten verwenden sollte. Warum nicht?

Oder wenn es manchmal in Ordnung oder immer in Ordnung ist, warum?


3
Was sagt das und in welchem ​​Kontext? "Niemals" scheint viel zu stark zu sein, es sei denn, es handelt sich um eine sehr begrenzte Situation. Es mag sein, dass derjenige, der es geschrieben hat, einfach falsch ist, aber wie sollen wir ohne Kontext raten?
Glen_b -Reinstate Monica

2
Das Online-Modul ist proprietär und ich kann es nicht verknüpfen. Ich habe jedoch ein Video gefunden, in dem dasselbe steht: australianbioinformatics.net/the-pipeline/2013/3/19/… . Sowohl das Modul, das ich gesehen habe, als auch dieses Video zeigen, dass es keine Kontexte gibt, in denen korrelierende Proportionen akzeptabel sind.
user1205901

4
"Niemals" ist zu stark. Es gibt Gründe, bei der Interpretation von Korrelationskoeffizienten mit Proportionen vorsichtig zu sein, insbesondere bei solchen, die auf kleinen Zählungen basieren. Dieselbe Analyse, die diese Gründe stützt, zeigt jedoch auch, dass die Korrelationskoeffizienten nicht problematisch sind, wenn die Proportionen auf großen Zählungen basieren und die Proportionen "ausreichend weit" von oder 1 entfernt sind. Darüber hinaus kann man immer einen Korrelationskoeffizienten für jeden Satz gepaarter Daten (wobei beide Komponenten Variationen aufweisen) als zusammenfassende (beschreibende) Statistik angeben. 01
whuber

Antworten:


6

Dies gilt für einen Fall, in dem mehrere Variablen in jeder Beobachtung zu 1 addiert werden. Meine Antwort wird Intuitionsniveau sein; Dies ist beabsichtigt (und ich bin auch kein Experte für Kompositionsdaten).

Lassen Sie uns iid (daher nullkorrelierte ) positiv bewertete Variablen haben, die wir dann zusammenfassen und als Proportionen dieser Summe neu berechnen. Dann,

  • Wenn bei zwei Variablen V1 V2 gesagt wird, dass V1 frei variieren soll, hat V2 keinen Raum für Freiheit (da V1 + V2 = konstant) und ist vollständig festgelegt; Je größer V1 ist, desto kleiner ist V2, je kleiner ist V1, desto größer ist V2. Ihre Korrelation ist aber und ist es immer.1
  • 1/21/20.5
  • 1/31/30.333
  • 0

OK, aber ich denke, das Interesse liegt in den Paaren V1, V2, wobei jedes V zu 1 summiert (100%), aber keine Einschränkung für das einzelne V, außer dass jedes ein Bruchteil ist.
Nick Cox

each V summing to 1 ( 100%)Entschuldigen Sie mich? Ich habe dich nicht verstanden Ich habe dem einzelnen V keine Einschränkung auferlegt, sondern nur einen Bruchteil. Die anfängliche Einschränkung war jedoch, dass mein Beispiel keine Korrelationen annimmt, bevor Vs in Brüche umgewandelt wird.
ttnphns

Meinten Sie, dass jedes V Werte hat, die sich zu 1 summieren ("vertikal")? Nein, ich meinte "horizontal" über Variablen hinweg. Leider hat das OP den Punkt in ihrer Frage nicht geklärt. Also habe ich es so genommen, wie ich es genommen habe.
ttnphns

Ja; das heißt ich denke was hier normalerweise gemeint ist, aber die frage ist nicht besonders klar.
Nick Cox

1
@ttnphns Ich sah eine Aussage, dass man niemals eine Pearson-Korrelation zwischen zwei als Proportionen gemessenen Variablen durchführen sollte. Ich habe versucht, dies klarer zu machen, indem ich das OP so bearbeitet habe, dass das Wort "nie" hervorgehoben wird. Das Video macht die gleiche Aussage in seinem Titel ("Korreliere keine Proportionen!"), Obwohl sie dies nur im Zusammenhang mit Kompositionsdaten diskutieren. Ich habe den Kontext absichtlich undefiniert gelassen, weil meine Quelle angab, dass Pearson-Korrelationen in keinem Kontext für Proportionsdaten verwendet werden sollten. Die Antwort auf meine Frage scheint jedoch zu lauten: "Korrelierende Proportionen sind in Ordnung, außer in einigen Zusammenhängen."
user1205901

10

Der Videolink Ihres Kommentars stellt den Kontext auf den von Kompositionen ein, die auch als Mischungen bezeichnet werden können. In diesen Fällen summiert sich die Summe des Anteils jeder Komponente zu 1. Beispielsweise besteht Luft aus 78% Stickstoff, 21% Sauerstoff und 1% anderen (insgesamt 100%). Da die Menge einer Komponente vollständig von den anderen bestimmt wird, haben zwei beliebige Komponenten eine perfekte multilineare Beziehung. Für das Luftbeispiel haben wir:

x1+x2+x3=1

also dann:

x1=1x2x3

x2=1x1x3

x3=1x1x2

Wenn Sie also zwei Komponenten kennen, ist die dritte sofort bekannt.

Im Allgemeinen ist die Beschränkung für Gemische

i=1qxi=1

xi

Sie können eine Korrelation zwischen zwei Komponenten berechnen , diese ist jedoch nicht informativ , da sie immer korreliert sind. Weitere Informationen zur Analyse der Zusammensetzung finden Sie unter Analysieren von Daten, die als proportionale Zusammensetzung gemessen wurden .

Sie können die Korrelation verwenden, wenn die Proportionsdaten aus verschiedenen Domänen stammen. Angenommen, Ihre Antwort ist ein Bruchteil der toten Pixel auf einem LCD-Bildschirm. Sie könnten versuchen, dies beispielsweise mit dem Anteil an Helium zu korrelieren, der in einem chemischen Verarbeitungsschritt des Bildschirms verwendet wird.


Ich verstehe - ich hatte fälschlicherweise gedacht, dass die Kompositionen nur ein Beispiel sind. Ist es also fair zu sagen, dass korrelierende Proportionen im Allgemeinen unproblematisch sind, es sei denn, Sie haben eine Situation, in der Kompositionen eine Korrelation „erzwingen“?
user1205901

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipist nicht klar. Können Sie es erweitern?
ttnphns

Ich verstehe diese Antwort auch nicht. In Ihrem Beispiel mit drei Variablen wird jede von ZWEI anderen "bestimmt", aber die Pearson-Korrelation analysiert nur eine Variable in Bezug auf EINE andere. Wenn Sie also beispielsweise Stickstoff gegen Sauerstoff betrachten, könnten Sie einen (Stickstoff, Sauerstoff) -Datensatz [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)] haben und einen gültigen Korrelationskoeffizienten erstellen Berechnung dieser Daten (und es ist sicherlich nicht kolinear). Der Pearson-Korrelationskoeffizient kennt oder kümmert sich nicht um "andere" dort ...
Jason C

3
Als eine Art Metakommentar würde ich nicht erwarten, dass unzugängliches Material als Autorität für einen statistischen Punkt angeführt wird, nicht dass Sie dies vorschlagen. Auf einer Ebene ist es also einfach: Es gibt eine Literatur zur Analyse kompositorischer Daten, in der nachgeschlagen werden kann. Ich bin kein Experte, daher kann ich nicht sagen, was für die Korrelation am maßgeblichsten ist, aber mein Instinkt ist, dass die Warnung übertrieben ist. Die beschreibende Verwendung der Korrelation kann hilfreich sein. Es ist nur so, dass Schlussfolgerungen durch die Beschränkung der Summen kompliziert werden.
Nick Cox

Ich denke, der "Anteil toter Pixel" wäre in Ordnung, wenn wir Messungen von LCD-Bildschirmen mit der gleichen Pixelanzahl erfassen würden und der Gasdruck dabei konstant bleiben würde. Aber wer kann sagen, wie sich Helium auswirkt, wenn Sie erst einmal zulassen, dass sich die Nenner dieser Proportionen ändern?
David Lovell

5

Dies ist eine tiefe Frage, die einige Feinheiten enthält, die angegeben werden müssen. Ich werde mein Bestes geben, aber obwohl ich zu diesem Thema veröffentlicht habe ( Proportionalität: Eine gültige Alternative zur Korrelation für relative Daten ), bin ich immer bereit, von neuen Erkenntnissen über die Analyse von Daten überrascht zu werden, die nur relative Informationen enthalten.

Wie die Autoren dieses Threads hervorgehoben haben, ist die Korrelation (in einigen Kreisen) berüchtigt dafür, dass sie bedeutungslos ist, wenn sie auf die Zusammensetzungsdaten angewendet wird, die entstehen, wenn eine Reihe von Komponenten gezwungen ist, eine Konstante zu addieren (wie wir bei Proportionen, Prozentsätzen, Teile pro Million usw.).

Karl Pearson prägte vor diesem Hintergrund den Begriff der falschen Korrelation . (Hinweis: In Tyler Vigens beliebter Spurious Correlation- Site geht es weniger um falsche Korrelation als vielmehr um den Irrtum " Korrelation impliziert Kausalität ".)

Abschnitt 1.7 von Aitchisons (2003) Ein kurzer Leitfaden zur Analyse von Zusammensetzungsdaten bietet ein klassisches Beispiel dafür, warum Korrelation ein unangemessenes Maß für die Assoziation von Zusammensetzungsdaten ist (der Einfachheit halber in diesen ergänzenden Informationen angegeben) .

Zusammensetzungsdaten entstehen nicht nur, wenn eine Reihe nicht negativer Komponenten zu einer Konstanten summiert wird. Daten gelten als zusammensetzend, wenn sie nur relative Informationen enthalten.

Ich denke, das Hauptproblem bei der Korrelation von Daten, die nur relative Informationen enthalten, liegt in der Interpretation des Ergebnisses. Dies ist ein Problem, das wir mit einer einzelnen Variablen veranschaulichen können. Nehmen wir an, "Donuts werden pro Dollar des BIP produziert" in allen Ländern der Welt. Wenn der Wert einer Nation höher ist als der einer anderen, liegt das daran?

  • ihre Donutproduktion ist höher?
  • ihr BIP ist niedriger?

...Wer kann das schon sagen?

Wie die Leute in diesem Thread bemerken, kann man natürlich Korrelationen dieser Art von Variablen als beschreibende Variable berechnen. Aber was bedeuten solche Korrelationen?


3

Ich hatte die gleiche Frage. Ich fand diese Referenz bei biorxiv nützlich:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proportionalität: eine gültige Alternative zur Korrelation für relative Daten"

In den Hintergrundinformationen dieses Papiers (Lovell, David et al .; Doi: dx.doi.org/10.1101/008417) erwähnen die Autoren, dass Korrelationen zwischen relativen Häufigkeiten in einigen Fällen keine Informationen liefern. Sie geben ein Beispiel für die relative Häufigkeit von zwei mRNA-Expressionen. In Abbildung S2 sind die relativen Häufigkeiten der beiden verschiedenen mRNAs perfekt negativ korreliert, obwohl die Korrelation dieser beiden mRNAs in absoluten Werten nicht negativ miteinander verbunden ist (grüne Punkte und violette Punkte).

Vielleicht könnte es dir helfen.


2
Vielen Dank für Ihren Vorschlag. Ich habe es nicht klar gemacht. In den unterstützenden Informationen dieses Papiers (Lovell, David et al .; Doi: dx.doi.org/10.1101/008417 ) erwähnen die Autoren, dass Korrelationen zwischen relativen Häufigkeiten in einigen Fällen keine Informationen liefern. Sie geben ein Beispiel für die relative Häufigkeit von zwei mRNA-Expressionen. In Abbildung S2 sind die relativen Häufigkeiten der beiden unterschiedlichen mRNAs perfekt negativ korreliert, obwohl die Korrelation dieser beiden mRNAs in absoluten Werten nicht negativ ist (grüne Punkte und violette Punkte).
Klage

@shu vielleicht könntest du sagen, warum dieser Artikel dir bei ähnlichen Problemen geholfen hat und es zusammenfassen ..? Das Einfügen eines Links ist keine Antwort. Bitte erläutern Sie etwas mehr. Der Grund dafür ist auch, dass Links sterben und wenn Sie möchten, dass Ihre Antwort in Zukunft für jemanden hilfreich ist, sollten Sie sie selbstkonsistent machen. Natürlich ist es eine gute Angewohnheit , zusätzlich zu Ihrer Antwort Referenzen anzugeben.
Tim
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.