Nach meiner Erfahrung ist die Protokolltransformation am hilfreichsten, wenn die Daten "kegelförmig" und (logarithmisch oder auf andere Weise) verzerrt sind (siehe unten). Diese Art von Daten stammt häufig aus Bevölkerungsgruppen, z. B. Benutzern eines Systems, in denen eine große Anzahl von gelegentlichen, seltenen Benutzern und eine kleine Anzahl von häufigen Benutzern vorhanden sind.
Hier ist ein Beispiel für einige kegelförmige Daten:
x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1
#regression of unlogged values
fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Wenn Sie die Protokolle von y und z nehmen, erhalten Sie:
#regression of logged values
fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Beachten Sie, dass durch die Regression protokollierter Daten die Form der Anpassungsgleichung von geändert wird y=ax+b
zu
log(y)=alog(x)+b (oder alternativ y=xaeb).
Über dieses Szenario hinaus würde ich sagen, dass es nie weh tut, die protokollierten Daten grafisch darzustellen, auch wenn die Residuen dadurch nicht homoskedastischer werden. Oft werden Details angezeigt, die Sie sonst nicht sehen würden, oder Daten werden auf nützliche Weise verteilt / gequetscht