Warum sind Pearson parametrisch und Spearman nicht parametrisch?


19

Anscheinend ist Pearsons Korrelationskoeffizient parametrisch und Spearmans Rho nicht parametrisch.

Ich habe Probleme, das zu verstehen. So wie ich es verstehe, wird Pearson berechnet als und Spearman wird auf die gleiche Weise berechnet, außer dass wir alle Werte durch ihre Ränge ersetzen.

rxy=cOv(X,Y.)σxσy

Wikipedia sagt

Der Unterschied zwischen dem parametrischen Modell und dem nicht parametrischen Modell besteht darin, dass das erstere eine feste Anzahl von Parametern aufweist, während das letztere die Anzahl der Parameter mit der Menge der Trainingsdaten erhöht.

Aber ich sehe keine Parameter außer den Beispielen selbst. Einige sagen , dass parametrische Tests Normalverteilungen übernehmen und weitergehen zu sagen , dass Pearson normalverteilte Daten übernimmt, aber ich sehe nicht , warum Pearson , dass erfordern würde.

Meine Frage ist also, was parametrisch und nicht parametrisch im Kontext der Statistik bedeutet. Und wie passen Pearson und Spearman dort hinein?


6
Das ist eine gute Frage und es gibt eine Menge Fehlinformationen. Zum Beispiel ist die Gleichung von parametrischen Tests und der Annahme von Normalverteilungen leider eine häufige Verwirrung, wobei viele Schulbuchautoren, Kursleiter und Internet-Poster nur von anderen kopieren, die genauso oder mehr verwirrt sind.
Nick Cox

5
Vielleicht ist die einfachste positive Lösung der Frage folgende: Ja, die Spearman-Korrelation ist ein zu schätzender Parameter, der die Stärke einer Beziehung quantifiziert, und ähnelt somit Pearson (im Grunde ist es dieselbe Idee, wie Sie hervorheben); Aber nein, die Spearman-Korrelation ist kein Parameter, der in einer Verteilung vorkommt, während die Pearson-Korrelation ein Parameter in einer bivariaten Normalverteilung ist (eine historische, aber jetzt heruntergespielte Interpretation dessen, was Sie bei der Korrelation tun). Es ist eine feine Unterscheidung, wenn man sieht, dass das Wort "Parameter" mehrere Sinne hat.
Nick Cox

@ NickCox, warum postest du das nicht als Antwort?
Richard Hardy

5
Der Punkt über die Normalität der Verteilung ist nur dann wirklich wichtig, wenn Sie Signifikanztests mit Korrelation durchführen möchten. Wenn Sie Korrelationen nur als beschreibende Maßnahmen verwenden, muss die Nicht-Normalität kein Hindernis für die Verwendung von Korrelationen sein. Korrelationen können bei zwei binären Variablen sogar ein wenig nützlich sein, solange beide variieren. Sie müssen noch auf die Auswirkungen von Ausreißern usw. usw.
Nick Cox

1
Da es noch nicht klar gesagt zu sein scheint, möchte ich betonen, dass keine Statistik "parametrisch" ist. Das ist, als würde man sagen, dass Zahlen lecker sind: Das Adjektiv trifft einfach nicht auf das Substantiv zu. Statistische Modelle können parametrisch sein (wie im Wikipedia-Zitat angegeben) sowie die darauf basierenden Tests und Verfahren. Die Spearman- und Pearson- Statistiken können sowohl in parametrischen als auch in nicht parametrischen Einstellungen verwendet werden. Mehr dazu unter stats.stackexchange.com/questions/67204 . Was ein Modell parametrisch macht, ist sein Zustandsraum .
whuber

Antworten:


17

Das Problem ist, dass "nichtparametrisch" heutzutage zwei unterschiedliche Bedeutungen hat. Die Definition in Wikipedia gilt für Dinge wie nichtparametrische Kurvenanpassung, z. B. über Splines oder lokale Regression. Die andere Bedeutung, die älter ist, ist eher im Sinne von "verteilungsfrei" - dh Techniken, die unabhängig von der angenommenen Verteilung der Daten angewendet werden können. Letzteres gilt für Spearmans Rho, da die Rangtransformation impliziert, dass es unabhängig von Ihrer ursprünglichen Verteilung dasselbe Ergebnis liefert.


2
Nichtparametrisch hat zwei Bedeutungen, aber der Kommentar in Wikipedia gilt wirklich für beide. In der nichtparametrischen Regression bedeutet dies, dass die Beziehung nicht endlich parametrisch ist. Auf der "verteilungsfreien" Seite der Dinge bezieht es sich auf Verteilungsmodelle, die nicht endlich parametrisch sind.
Glen_b

1
Hm, das ist ein Zitat aus Wikipedia, nicht ich. Jemand anderes hat es hinzugefügt.
Hong Ooi,

2
Die Hauptbearbeitung - von der ich glaube, dass sie in einem Detail falsch ist und nichts besonders Nützliches hinzufügt - wurde überprüft, da sie von einem Benutzer mit niedrigem Repräsentantenstatus vorgenommen und von einer Person abgelehnt wurde, aber dann automatisch akzeptiert wurde, wenn Eine dritte Person hat versucht, sie zu bearbeiten, um sie zu verbessern. Ich werde diese Bearbeitung auf Ihr Original zurücksetzen. Sie können dies jederzeit tun, wenn Sie eine Bearbeitung nicht mögen.
Glen_b -Reinstate Monica

Nun zurück zu Ihrem ursprünglichen Beitrag, da ich denke, dass er Ihren Beitrag zu sehr verändert hat, ohne Ihre Zustimmung einzuholen, und nicht so klingt, als ob Sie dem zustimmen. Wenn es etwas gab, das dir gefallen hat, klicke auf den Link "Vor bearbeitet ..." über meinem Namen und kopiere die Teile, die dir gefallen haben, von den
vorherigen

Wann ist die Verwendung von Spearman gerechtfertigt? Wie kann Pearson bei der Verwendung von Spearman helfen?
Léo Léopold Hertz 준영

3

Ich denke, der einzige Grund, warum Pearsons Korrelationskoeffizient als parametrisch bezeichnet wird, besteht darin, dass Sie ihn zur Schätzung der Parameter der multivariaten Normalverteilung verwenden können. Beispielsweise hat die bivariate Normalverteilung 5 Parameter: zwei Mittelwerte, zwei Varianzen und den Korrelationskoeffizienten. Letzteres kann mit dem Pearson-Korrelationskoeffizienten abgeschätzt werden.

ρ


Ist der Korrelationskoeffizientenparameter von Pearson nicht in dem Sinne, dass Sie Normalität annehmen müssen, um seine Signifikanz zu testen? Das heißt, es wird keine Normalität als Statistik angenommen, aber Sie gehen davon aus, dass die Daten normal sind, wenn Sie die Verteilung des Stichprobenkorrelationskoeffizienten berechnen und testen? das ist eine ehrliche frage, ich könnte 100% falsch liegen.
Mugen

Kannst du bitte erklären, ob du irgendwelche Verteilungsannahmen in Sperman und Kendall machst?
Léo Léopold Hertz 준영

@mugen Sie müssen keine Normalität annehmen, um die Signifikanz einer Pearson-Korrelation zu testen. Dies ist ein gängiger Test für eine Pearson-Korrelation. Sie könnten eine andere parametrische Annahme treffen und einen anderen Test erstellen ... oder Sie könnten einen Permutationstest mit der Null durchführen, bei dem die Pearson-Populationskorrelation Null ist, was zu einem nichtparametrischen Test führt.
Glen_b

0

Die einfachste Antwort, denke ich, ist, dass Spearmens Rho-Test Ordnungsdaten verwendet (Zahlen, die eingestuft werden können, aber nichts über das Intervall zwischen den Zahlen aussagen, z. B. 3 Eissorten, werden mit 1, 2 und 3 eingestuft, aber dies sagt Ihnen nur, welche Geschmack wurde nicht bevorzugt, wie viel von). Ordnungsdaten können nicht in parametrischen Tests verwendet werden.

Pearsons r-Test verwendet Intervall- oder Verhältnisdaten (Zahlen mit festen Intervallen, z. B. Sekunden, kg, mm). 1mm ist nicht nur kleiner als 5mm, sondern Sie wissen genau, wie viel von. Diese Art von Daten kann in einem parametrischen Test verwendet werden.


1
Sicher ist es möglich, parametrische Modelle - und damit parametrische Tests - mit Ordnungsdaten zu verwenden. Man muss einfach eine Verteilung für diese Variable mit einer endlichen und festen Anzahl von Parametern vorschlagen, und eine geeignete Hypothese in Bezug auf diese Parameter und voila existiert ein parametrischer Test. Die Pearson-Korrelation, die in Situationen berechnet wird, in denen eine oder beide Variablen zwei Kategorien aufweisen (mit zwei unterschiedlichen Zahlen gekennzeichnet, in der Regel 0/1), führt zu häufig verwendeten Assoziationsmaßen für diese Situationen.
Glen_b -Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.