Rücktransformation der Regressionsergebnisse beim Modellieren des Protokolls (y)


11

Ich füge eine Regression in das . Ist es gültig, Transformationspunktschätzungen (und Konfidenz- / Vorhersageintervalle) durch Exponentiation zu unterstützen? Ich glaube nicht, da E [ f ( X ) ] f ( E [ X ] ), aber ich wollte die Meinungen anderer.log(y)E[f(X)]f(E.[X.]])

Mein Beispiel unten zeigt Konflikte mit der Rücktransformation (.239 vs .219).

set.seed(123)

a=-5
b=2

x=runif(100,0,1)
y=exp(a*x+b+rnorm(100,0,.2))
# plot(x,y)

### NLS Fit
f <- function(x,a,b) {exp(a*x+b)} 
fit <- nls(y ~ exp(a*x+b),  start = c(a=-10, b=15)) 
co=coef(fit)
# curve(f(x=x, a=co[1], b=co[2]), add = TRUE,col=2,lwd=1.2) 
predict(fit,newdata=data.frame(x=.7))
[1] 0.2393773

### LM Fit
# plot(x,log(y))
# abline(lm(log(y)~x),col=2)
fit=lm(log(y)~x)
temp=predict(fit,newdata=data.frame(x=.7),interval='prediction')
exp(temp)
        fit       lwr       upr
1 0.2199471 0.1492762 0.3240752

1
Ist dies nicht eines der Probleme, die durch logarithmisch verknüpfte Gaußsche GLMs gelöst werden?
generic_user

@ ARM Ja, ich glaube schon. Vielen Dank für den Hinweis. Mit GLM ist es jedoch schwieriger, Vorhersageintervalle zu erhalten, aber ich denke, ich kann es herausfinden.
Glen

1
@Glen Suche auf dieser Seite nach Duan Smearing.
Dimitriy V. Masterov

Antworten:


13

Es hängt davon ab, was Sie am anderen Ende erhalten möchten.

Ein Konfidenzintervall für einen transformierten Parameter lässt sich problemlos transformieren. Wenn es die nominelle Abdeckung auf der logarithmischen Skala hat, hat es aufgrund der Monotonie der Transformation dieselbe Abdeckung auf der ursprünglichen Skala.

Ein Vorhersageintervall für eine zukünftige Beobachtung transformiert sich ebenfalls einwandfrei.

Ein Intervall für einen Mittelwert auf der logarithmischen Skala ist im Allgemeinen kein geeignetes Intervall für den Mittelwert auf der ursprünglichen Skala.

Manchmal können Sie jedoch aus dem Modell auf der Protokollskala entweder genau oder annähernd eine vernünftige Schätzung für den Mittelwert auf der ursprünglichen Skala erstellen.

Es ist jedoch Vorsicht geboten, oder Sie erstellen möglicherweise Schätzungen mit etwas überraschenden Eigenschaften (es ist beispielsweise möglich, Schätzungen zu erstellen, die selbst keinen Bevölkerungsdurchschnitt haben; dies ist nicht jedermanns Vorstellung von einer guten Sache).

Wenn Sie beispielsweise im logarithmischen Fall zurück potenzieren, haben Sie eine schöne Schätzung von , und Sie können feststellen, dass der Populationsmittelwert exp ( μ i + 1) istexp(μi), so dass Sie vielleicht denken,exp( ^ μ i )zu verbessern,indem Sie es mit einer Schätzung vonexp(1)skalierenexp(μi+12σ2)exp(μi^).exp(12σ2)

Man sollte zumindest in der Lage sein, über Slutskys Theorem (insbesondere die Produktform) eine konsistente Schätzung und tatsächlich einige Verteilungsasymptotik zu erhalten, solange man die Anpassung konsistent schätzen kann. Der Satz der kontinuierlichen Abbildung besagt, dass Sie dies können, wenn Sie konsistent schätzen können ... was der Fall ist.σ2

Solange σ 2 ist ein konsistenter Schätzer für σ 2 , dann exp ( ^ μ i ) exp ( 1σ^2σ2konvergiert in Verteilung auf die Verteilung vonexp( ^exp(μi^)exp(12σ^2)exp(μi^)exp(12σ2)μi^μiexp(μi^)exp(μi) konsistent, so dass wir einen konsistenten Schätzer des Mittelwerts auf der ursprünglichen Skala haben.

Sehen hier .

Einige verwandte Beiträge:

Rücktransformation eines MLR-Modells

Rückentransformation

Rücktransformierte Konfidenzintervalle


1
Danke, ich habe mir die vorherigen Beiträge angesehen und war zwar aufschlussreich, aber immer noch etwas verwirrt, daher meine Frage.
Glen

+1 Tolle Antwort! Nur eine kurze Klarstellung: Woher kam das?12σ2^

1
E(Y)=0yf(y)dyfE(eX)X=logYXYt1,2,...

1
exetxe...x12

1
teμt+12σ2t2.
Glen_b -Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.