Wird die Protokolltransformation immer die Heteroskedastizität verringern?


7

Wird die Protokolltransformation immer die Heteroskedastizität verringern? Weil das Lehrbuch besagt, dass die Protokolltransformation häufig die Heteroskedastizität verringert. Ich möchte also wissen, in welchen Fällen die Heteroskedastizität nicht verringert wird.


4
Beginnen Sie mit jedem homoskedastisch Daten. Wenden Sie einen Logarithmus an. Offensichtlich kann es nicht weniger heteroskedastisch werden. Verwenden Sie beliebige Daten.
whuber


5
Wenn Ihre Fehlervarianz proportional zur Ebene der Variablen ist, kann die Protokolltransformation hilfreich sein. Es ist kein Aspirin der Transformation, es heilt nicht alles
Aksakal

Antworten:


16

Nein; manchmal wird es schlimmer.

Die Heteroskedastizität, bei der die Streuung nahezu proportional zum bedingten Mittelwert ist, wird tendenziell durch log (y) verbessert. Wenn sie jedoch nicht mit dem Mittelwert nahe dieser Rate (oder mehr) zunimmt, wird die Heteroskedastizität häufig verschlechtert durch diese Transformation.

Darstellung von zwei Datensätzen, einer mit proportional zum Mittelwert, die eine Verbesserung zeigt, wenn log (y) genommen wird, und der zweite, wenn der Spread in die andere Richtung geht, was sich nach dem Aufnehmen von Protokollen verschlechtert

Weil das Aufnehmen von Protokollen extremere Werte auf der rechten Seite "hochzieht" (hohe Werte), während Werte ganz links (niedrige Werte) dazu neigen, nach hinten gestreckt zu werden:

Geben Sie hier die Bildbeschreibung ein

Dies bedeutet, dass die Spreads kleiner werden, wenn die Werte groß sind, aber gestreckt werden können, wenn die Werte bereits klein sind.


Wenn Sie die ungefähre Form der Heteroskedastizität kennen, können Sie manchmal eine Transformation ausarbeiten, die die Varianz ungefähr konstant macht. Dies ist als varianzstabilisierende Transformation bekannt ; Es ist ein Standardthema in der mathematischen Statistik. Auf unserer Website gibt es eine Reihe von Beiträgen, die sich auf varianzstabilisierende Transformationen beziehen.

Wenn die Streuung proportional zur Quadratwurzel des Mittelwerts ist (Varianz proportional zum Mittelwert), ist eine Quadratwurzeltransformation - in diesem Fall die varianzstabilisierende Transformation - tendenziell viel besser als eine logarithmische Transformation. Die Protokolltransformation macht in diesem Fall "zu viel". In der zweiten Darstellung nimmt die Streuung mit zunehmendem Mittelwert ab, und wenn wir dann entweder Baumstämme oder Quadratwurzeln nehmen, wird dies noch schlimmer. (Es stellt sich heraus, dass die 1,5-Potenz in diesem Fall die Varianz tatsächlich recht gut stabilisiert.)


(+1) Aber vielleicht wäre es hilfreich, etwas genauer zu sein, wenn Sie "Heteroskedastizität, bei der die Streuung nahezu proportional zum bedingten Mittelwert ist ..." sagen , um klar zu machen, ob Sie auf der "quadratischen Skala" meinen ( Varianz) oder Originalmaßstab (SD was auch immer), wie Sie etwas später für die Quadratwurzel-Transformation geklärt haben
Silverfish

@silv Danke. In meinen Augen war es nicht mehrdeutig, ob sich die Wortverteilung auf Originaleinheiten von X oder quadratische Einheiten bezieht - für mich waren es nur Originaleinheiten. Es könnte sich jedoch auf ein allgemeines Maß für die Streuung der Punkte beziehen (mittlere Abweichung, IQR, mittlere absolute Abweichung, SD usw.). Um Dinge wie Varianz einzubeziehen, hätte ich eher "Streuung" als Ausbreitung gesagt. Es ist jedoch klar, dass andere Menschen ein anderes Verständnis haben als ich. Kennen Sie ein anderes Wort, das sich nur auf Maße der typischen Entfernung zwischen Beobachtungen bezieht, die ich an seiner Stelle ersetzen könnte? ... ctd
Glen_b -State Monica

ctd ... Ich möchte vermeiden, jedes Mal einen Aufsatz zu schreiben, wenn ich dieses Konzept erwähnen möchte. Es wird zu schwierig, ihm zu folgen. Ich möchte wirklich kurzfristig. Glaubst du, ich könnte "Skala" sagen?
Glen_b -State Monica

1
Ich habe ursprünglich "SD oder IQR oder was auch immer" geschrieben (dann habe ich es geschafft, etwas davon zu löschen, um es in "SD was auch immer" zu zerlegen), damit ich das Problem verstehe! Ich denke tatsächlich, dass eine eindeutige Aussage hier ein paar Worte wert ist, da falsche Angaben zu "Varianz proportional zum Mittelwert" leicht an anderer Stelle zu finden sind. Ich würde mich wahrscheinlich vor "Skala" scheuen, da der Schwierigkeitsgrad des Themas in Kursen für angewandte Statistiken / Ökonometrie ziemlich einführend ist, während das Konzept der "Skala" abstrakter ist und möglicherweise zuerst in einem höheren, theoretischeren Kurs erscheint.
Silverfish

2

Nach meiner Erfahrung ist die Protokolltransformation am hilfreichsten, wenn die Daten "kegelförmig" und (logarithmisch oder auf andere Weise) verzerrt sind (siehe unten). Diese Art von Daten stammt häufig aus Bevölkerungsgruppen, z. B. Benutzern eines Systems, in denen eine große Anzahl von gelegentlichen, seltenen Benutzern und eine kleine Anzahl von häufigen Benutzern vorhanden sind.

Hier ist ein Beispiel für einige kegelförmige Daten:

x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1

#regression of unlogged values

fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

Geben Sie hier die Bildbeschreibung ein

Wenn Sie die Protokolle von y und z nehmen, erhalten Sie:

#regression of logged values

fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

Geben Sie hier die Bildbeschreibung ein

Beachten Sie, dass durch die Regression protokollierter Daten die Form der Anpassungsgleichung von geändert wird y=ax+b zu log(y)=alog(x)+b (oder alternativ y=xaeb).

Über dieses Szenario hinaus würde ich sagen, dass es nie weh tut, die protokollierten Daten grafisch darzustellen, auch wenn die Residuen dadurch nicht homoskedastischer werden. Oft werden Details angezeigt, die Sie sonst nicht sehen würden, oder Daten werden auf nützliche Weise verteilt / gequetscht

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.