Ein Online-Modul, das ich studiere, besagt, dass man niemals die Pearson-Korrelation mit Proportionsdaten verwenden sollte. Warum nicht?
Oder wenn es manchmal in Ordnung oder immer in Ordnung ist, warum?
Ein Online-Modul, das ich studiere, besagt, dass man niemals die Pearson-Korrelation mit Proportionsdaten verwenden sollte. Warum nicht?
Oder wenn es manchmal in Ordnung oder immer in Ordnung ist, warum?
Antworten:
Dies gilt für einen Fall, in dem mehrere Variablen in jeder Beobachtung zu 1 addiert werden. Meine Antwort wird Intuitionsniveau sein; Dies ist beabsichtigt (und ich bin auch kein Experte für Kompositionsdaten).
Lassen Sie uns iid (daher nullkorrelierte ) positiv bewertete Variablen haben, die wir dann zusammenfassen und als Proportionen dieser Summe neu berechnen. Dann,
each V summing to 1 ( 100%)
Entschuldigen Sie mich? Ich habe dich nicht verstanden Ich habe dem einzelnen V keine Einschränkung auferlegt, sondern nur einen Bruchteil. Die anfängliche Einschränkung war jedoch, dass mein Beispiel keine Korrelationen annimmt, bevor Vs in Brüche umgewandelt wird.
Der Videolink Ihres Kommentars stellt den Kontext auf den von Kompositionen ein, die auch als Mischungen bezeichnet werden können. In diesen Fällen summiert sich die Summe des Anteils jeder Komponente zu 1. Beispielsweise besteht Luft aus 78% Stickstoff, 21% Sauerstoff und 1% anderen (insgesamt 100%). Da die Menge einer Komponente vollständig von den anderen bestimmt wird, haben zwei beliebige Komponenten eine perfekte multilineare Beziehung. Für das Luftbeispiel haben wir:
also dann:
Wenn Sie also zwei Komponenten kennen, ist die dritte sofort bekannt.
Im Allgemeinen ist die Beschränkung für Gemische
Sie können eine Korrelation zwischen zwei Komponenten berechnen , diese ist jedoch nicht informativ , da sie immer korreliert sind. Weitere Informationen zur Analyse der Zusammensetzung finden Sie unter Analysieren von Daten, die als proportionale Zusammensetzung gemessen wurden .
Sie können die Korrelation verwenden, wenn die Proportionsdaten aus verschiedenen Domänen stammen. Angenommen, Ihre Antwort ist ein Bruchteil der toten Pixel auf einem LCD-Bildschirm. Sie könnten versuchen, dies beispielsweise mit dem Anteil an Helium zu korrelieren, der in einem chemischen Verarbeitungsschritt des Bildschirms verwendet wird.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
ist nicht klar. Können Sie es erweitern?
Dies ist eine tiefe Frage, die einige Feinheiten enthält, die angegeben werden müssen. Ich werde mein Bestes geben, aber obwohl ich zu diesem Thema veröffentlicht habe ( Proportionalität: Eine gültige Alternative zur Korrelation für relative Daten ), bin ich immer bereit, von neuen Erkenntnissen über die Analyse von Daten überrascht zu werden, die nur relative Informationen enthalten.
Wie die Autoren dieses Threads hervorgehoben haben, ist die Korrelation (in einigen Kreisen) berüchtigt dafür, dass sie bedeutungslos ist, wenn sie auf die Zusammensetzungsdaten angewendet wird, die entstehen, wenn eine Reihe von Komponenten gezwungen ist, eine Konstante zu addieren (wie wir bei Proportionen, Prozentsätzen, Teile pro Million usw.).
Karl Pearson prägte vor diesem Hintergrund den Begriff der falschen Korrelation . (Hinweis: In Tyler Vigens beliebter Spurious Correlation- Site geht es weniger um falsche Korrelation als vielmehr um den Irrtum " Korrelation impliziert Kausalität ".)
Abschnitt 1.7 von Aitchisons (2003) Ein kurzer Leitfaden zur Analyse von Zusammensetzungsdaten bietet ein klassisches Beispiel dafür, warum Korrelation ein unangemessenes Maß für die Assoziation von Zusammensetzungsdaten ist (der Einfachheit halber in diesen ergänzenden Informationen angegeben) .
Zusammensetzungsdaten entstehen nicht nur, wenn eine Reihe nicht negativer Komponenten zu einer Konstanten summiert wird. Daten gelten als zusammensetzend, wenn sie nur relative Informationen enthalten.
Ich denke, das Hauptproblem bei der Korrelation von Daten, die nur relative Informationen enthalten, liegt in der Interpretation des Ergebnisses. Dies ist ein Problem, das wir mit einer einzelnen Variablen veranschaulichen können. Nehmen wir an, "Donuts werden pro Dollar des BIP produziert" in allen Ländern der Welt. Wenn der Wert einer Nation höher ist als der einer anderen, liegt das daran?
...Wer kann das schon sagen?
Wie die Leute in diesem Thread bemerken, kann man natürlich Korrelationen dieser Art von Variablen als beschreibende Variable berechnen. Aber was bedeuten solche Korrelationen?
Ich hatte die gleiche Frage. Ich fand diese Referenz bei biorxiv nützlich:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proportionalität: eine gültige Alternative zur Korrelation für relative Daten"
In den Hintergrundinformationen dieses Papiers (Lovell, David et al .; Doi: dx.doi.org/10.1101/008417) erwähnen die Autoren, dass Korrelationen zwischen relativen Häufigkeiten in einigen Fällen keine Informationen liefern. Sie geben ein Beispiel für die relative Häufigkeit von zwei mRNA-Expressionen. In Abbildung S2 sind die relativen Häufigkeiten der beiden verschiedenen mRNAs perfekt negativ korreliert, obwohl die Korrelation dieser beiden mRNAs in absoluten Werten nicht negativ miteinander verbunden ist (grüne Punkte und violette Punkte).
Vielleicht könnte es dir helfen.