Weil die Regressionsgerade, die durch gewöhnliche kleinste Quadrate angepasst wird, notwendigerweise den Mittelwert Ihrer Daten (dh ) durchläuft - zumindest solange Sie den Achsenabschnitt nicht unterdrücken - Unsicherheit über den wahren Wert der Steigung hat keine Auswirkung auf die vertikale Position der Linie im Mittel von (dh bei ). Dies führt zu einer geringeren vertikalen Unsicherheit bei als Sie haben, je weiter Sie von sind. Wenn der Achsenabschnitt, in dem ist, , wird dies Ihre Unsicherheit über den wahren Wert von minimierenx y ˉ x ˉ x ˉ x x = 0 ˉ x β 0 β 0(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. Mathematisch ausgedrückt ergibt dies den kleinstmöglichen Wert des Standardfehlers für . β^0
Hier ist ein kurzes Beispiel in R
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
Diese Zahl ist ein bisschen beschäftigt, aber Sie können die Daten aus mehreren verschiedenen Studien sehen, bei denen die Verteilung von näher oder weiter von . Die Steigungen unterscheiden sich von Studie zu Studie ein wenig, sind aber weitgehend ähnlich. (Beachten Sie, dass sie alle das eingekreiste X durchlaufen, das ich zum Markieren von .) Die Unsicherheit über den wahren Wert dieser Steigungen führt jedoch dazu, dass sich die Unsicherheit über mit zunehmender Entfernung vergrößert , was bedeutet, dass die für die Daten, die in der Nähe von sehr breit und für die Studie, in der die Daten in der Nähe von erfasst wurden, sehr eng ist . 0 ( ˉ x , ˉ y ) y ˉ x S E ( β 0 ) , x = 10 x = 0x0(x¯,y¯)y^x¯SE(β^0)x=10x=0
Bearbeiten als Antwort auf einen Kommentar: Leider hilft es Ihnen nicht, Ihre Daten zu zentrieren, nachdem Sie sie haben, wenn Sie den wahrscheinlichen Wert bei einem Wert kennen möchten . Stattdessen müssen Sie Ihre Datenerfassung auf den Punkt zentrieren, den Sie in erster Linie interessieren. Um diese Probleme besser zu verstehen, kann es hilfreich sein, meine Antwort hier zu lesen: Lineares Regressionsvorhersageintervall . x x neuyxxnew