Die Einstellung wird herkömmlicherweise in der Form ausgedrückt
y= X.β+ ε
für einen Vektor von Antworten, eine Modellmatrix und einen Vektor von Parametern unter der Annahme, dass die Zufallsfehler nicht mit gleichen Varianzen und Null bedeutet: das heißtnyn × kX.kβε = (εich)σ2
E.( ε ) = 0 ; Var ( ε ) =σ2ichn.
Wenn dies der Fall ist, ist die gewöhnliche Schätzung der kleinsten Quadrate
β^= (X.'X.)- -X.'y.
Sei eine Matrix, deren Zeilen und die Werte der Regressoren für Rachel bzw. Thomas . Die vorhergesagten Antworten befinden sich im Vektor . Die tatsächlichen Antworten sind und wobei diese neuen Epsilons unkorrelierte Zufallsvariablen mit dem Mittelwert Null sind, unabhängig vom ursprünglichen und mit gemeinsamen Varianzen .Z.2 × kzR.zT.2Z.β^zR.β+εR.zT.β+εT.ϵσ2
Der Unterschied zwischen diesen Werten für Rachel minus Thomas, die ich nennen werde , ist einfachδ
δ= (zR.β+εR.) - (zT.β+εT.) = ( 1 , - 1 )Z.β+εR.- -εT..
Beide Seiten sind Matrizen - dh Zahlen - und offensichtlich sind sie aufgrund des Auftretens von auf der rechten Seite zufällig . (Die rechte Seite zeigt den geschätzten Unterschied zwischen den Antworten von Rachel und Thomas sowie die Abweichung zwischen den tatsächlichen und vorhergesagten Antworten von Rachel abzüglich der Abweichung zwischen den tatsächlichen und den vorhergesagten Antworten von Thomas.) Wir können den Erwartungsbegriff nach Begriff berechnen:1 × 1yεR.εT.
E.( δ)= E.( ( 1 , - 1 )Z.β+εR.- -εT.)= ( 1 , - 1 ) Z.β+ 0 - 0=z1β- -z2β.
Dies ist genau das, was man annehmen würde: Der erwartete Unterschied ist der Unterschied in den vorhergesagten Werten. Sie kann geschätzt werden, indem die Parameter durch ihre Schätzungen ersetzt werden. Um dies anzuzeigen, setzen wir einen Hut über das " ":E.
E.^( δ) = ( 1 , - 1 ) Z.β^=z1β^- -z2β^.(1)
Das ist die die in der Frage erscheint.2,88 - 2,51
Wir können die Analyse des Unterschieds zwischen Rachel und Thomas fortsetzen, indem wir die beiden Komponenten der Unsicherheit über diese Verteilung ausdrücken: Eine ist, weil und aus zufälligen Daten geschätzt werden, und die andere ist das Auftreten dieser zufälligen Abweichungen und . βσεR.εT.
Var( Rachel - Thomas )= Var( ( 1 , - 1 ) Z.β^+εR.- -εT.)= ( 1 , - 1 ) Z.Var(β^)Z.'( 1 , - 1)'+ Var(εR.) + Var(εT.)= ( 1 , - 1 ) Z.Var(β^)Z.'( 1 , - 1)'+ 2σ^2.(2)
Die Varianzen der Epsilons werden durch geschätzt . Wir kennen da es von abhängt . Es ist Routine, diese Varianz zu schätzen, indem durch die Schätzung der kleinsten Quadrate , wodurch eine Menge erzeugt wird, die manchmal geschrieben wird .σ^2Var(β^)σσ2σ^2Varˆ(β^)
Diese Schätzungen können nur in Wahrscheinlichkeiten umgewandelt werden, indem spezifischere Annahmen über die bedingten Verteilungen von auf . yX. Bei weitem am einfachsten ist es anzunehmen, dass multivariate Normal ist, denn dann ist (eine lineare Transformation des Vektors ) selbst Normal und daher bestimmen sein Mittelwert und seine Varianz seine Verteilung vollständig. Die geschätzte Verteilung wird erhalten, indem die Hüte auf und .yδyE.Var
Schließlich haben wir alle Informationen zusammengestellt, die für eine Lösung erforderlich sind. Das OLS-Verfahren schätzt die Verteilung von Rachels Antwort minus Thomas 'Antwort auf Normal mit einem Mittelwert, der der Differenz der vorhergesagten Werte und einer Varianz, die durch geschätzt wird und die geschätzte Fehlervarianz und die Varianz-Kovarianz-Matrix der Koeffizientenschätzungen .( 1 )( 2 )σ^2Var(β^)
Dieser R
Code führt direkt die in den Formeln und gezeigten Berechnungen durch :( 1 )( 2 )
fit <- lm(cgpa ~ hgpa + sat + ltrs, data=df) # model to predict College GPA
Z <- as.matrix(data.frame(intercept=1, hgpa=c(4,3), sat=c(1168,1168),ltrs=c(6,6)))
cont <- matrix(c(1,-1), 1, 2) # Rachel - Thomas "contrast".
beta.hat <- coef(fit) # Estimated coefficients for prediction
delta.hat <- cont %*% Z %*% beta.hat # Predicted mean difference
sigma.hat <- sigma(fit) # Estimated error SD
var.delta.hat <- cont %*% Z %*% vcov(fit) %*% t(Z) %*% t(cont) + 2 * sigma.hat^2
pnorm(0, -delta.hat, sqrt(var.delta.hat)) # Chance Rachel > Thomas
Die Ausgabe für diese Daten beträgt : OLS schätzt, dass die Wahrscheinlichkeit, dass Rachels CGPA die von Thomas übersteigt, bei . (In diesem Fall stellt sich heraus, dass Rachel und Thomas so ähnlich sind, das Modell so gut passt und die Datenmenge so groß ist, dass im Vergleich winzig ist bis und könnte so vernachlässigt werden. Das wird nicht immer der Fall sein.)0,6767 %Varˆ(δ^)2σ^2
Dies ist der Mechanismus, der der Berechnung von Vorhersageintervallen zugrunde liegt : Mit dieser Verteilung können wir Vorhersageintervalle für die Differenz zwischen Rachels und Thomas 'CGPA berechnen.