Korrelation vor oder nach der Protokolltransformation von Variablen


9

Gibt es ein allgemeines Prinzip, ob die Pearson-Korrelation für zwei Zufallsvariablen X und Y vor oder nach ihrer Log-Transformation berechnet werden sollte? Gibt es ein geeigneteres Testverfahren? Sie ergeben ähnliche, aber unterschiedliche Werte, da die logarithmische Transformation nicht linear ist. Kommt es darauf an, ob X oder Y nach dem Log näher an der Normalität liegen? Wenn ja, warum ist das wichtig? Und bedeutet das, dass man einen Normalitätstest für X und Y gegenüber log (X) und log (Y) durchführen und auf dieser Grundlage entscheiden sollte, ob Pearson (x, y) geeigneter ist als Pearson (log (x), log () y))?


@vinux hat eine nette Antwort und bietet einen informativen Link zum Verständnis der Rolle der Normalität bei der Korrelation. Ich wollte nur auf diese Frage hinweisen : stats.stackexchange.com/questions/298, die sehr gut ist, um zu verstehen, was Protokolle bei der Regression tun.
Gung - Reinstate Monica

Antworten:


5

Da und monotone Transformationen der Daten und , können Sie auch die Spearman-Rangkorrelation ( ) verwenden und sich keine Gedanken über die Transformation Ihrer Daten machen, da SieLog(X.)Log(Y.)X.Y.ρS.ρS.(X.,Y.)=ρS.(Log(X.),Log(Y.))


4

Die Korrelation (Pearson) misst eine lineare Beziehung zwischen zwei kontinuierlichen Variablen. Es gibt keine solche Wahl für (X, Y) oder (log X, log Y). Das Streudiagramm der Variablen kann zum Verständnis der Beziehung verwendet werden.

Der folgende Link kann in Bezug auf Normalitätsprobleme antworten. Verknüpfung


-3

Die Pearson-Korrelation dient zum parametrischen Testen und ist leistungsfähiger als der nicht-parametrische Test. Daher entscheiden wir uns für die Verwendung der Transformation vor nichtparametrischen Prozeduren. Transformieren Sie Ihre Daten und erhalten Sie die Korrelation der Pearsons. Das ist es.


@ abi: Abhängig von der Stichprobengröße sind die Koeffizienten von Spearman und Kendall in Bezug auf Leistung und MSE denen von Pearson mit normalverteilten Daten relativ ähnlich und selbst bei geringfügiger Datenverunreinigung weit überlegen.
Patrick
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.