Ableiten einer Varianz-Kovarianz-Matrix von Koeffizienten in linearer Regression

36

Ich lese gerade ein Buch über lineare Regression und habe Probleme, die Varianz-Kovarianz-Matrix von zu verstehen : $\mathbf{b}$

Bildbeschreibung hier eingeben

Die diagonalen Elemente sind einfach genug, aber die nicht diagonalen sind etwas schwieriger. Was mich ist, dass

σ (b_{0}, b_{1}) = E (b_{0} b_{1}) - E (b_{0}) E (b_{1}) = E (b_{0} b_{1}) - β_{0} β_{1}

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

Von und hier jedoch keine Spur vorhanden . $\beta_0$ $\beta_1$

regression

— qed
quelle

3

Zugehörige Frage: stats.stackexchange.com/questions/44838/…

— ocram

2

Welches ist das Buch?

— Konstantinos

53

Dies ist eigentlich eine coole Frage, die Ihr grundlegendes Verständnis einer Regression in Frage stellt.

Nehmen Sie zuerst alle anfänglichen Verwirrungen über die Notation heraus. Wir betrachten die Regression:

y = b_{0} + b_{1} x + \hat{u}

$y=b_0+b_1x+\hat{u}$

Dabei sind und die Schätzer der wahren und und die Residuen der Regression. Es ist zu beachten, dass die zugrunde liegende wahre und unversorgte Regression folgendermaßen bezeichnet wird: $b_0$ $b_1$ $\beta_0$ $\beta_1$ $\hat{u}$

y = β_{0} + β_{1} x + u

$y=\beta_0+\beta_1x+u$

Mit der Erwartung von und der Varianz . Einige Bücher bezeichnen als und wir passen diese Konvention hier an. Wir verwenden auch die Matrixnotation, wobei b der 2x1-Vektor ist, der die Schätzer von , nämlich . (Auch aus Gründen der Klarheit behandle ich X wie in den folgenden Berechnungen festgelegt.) $E[u]=0$ $E[u^2]=\sigma^2$ $b$ $\hat{\beta}$ $\beta=[\beta_0, \beta_1]'$ $b=[b_0, b_1]'$

Nun zu deiner Frage. Ihre Formel für die Kovarianz ist in der Tat richtig, das heißt:

σ (b_{0}, b_{1}) = E (b_{0} b_{1}) - E (b_{0}) E (b_{1}) = E (b_{0} b_{1}) - β_{0} β_{1}

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

Ich denke, Sie möchten wissen, wie es dazu kommt, dass wir die wahren unbeobachteten Koeffizienten in dieser Formel haben? Sie werden tatsächlich gestrichen, wenn wir durch Erweitern der Formel einen Schritt weiter gehen. Beachten Sie, dass die Populationsvarianz des Schätzers gegeben ist durch: $\beta_0, \beta_1$

V a r (\hat{β}) = σ^{2} (X^{'} X)^{- 1}

$Var(\hat\beta)=\sigma^2(X'X)^{-1}$

Diese Matrix enthält die Varianzen in den diagonalen Elementen und die Kovarianzen in den nicht diagonalen Elementen.

Um zur obigen Formel zu gelangen, verallgemeinern wir Ihre Behauptung mithilfe der Matrixnotation. Bezeichnen wir deshalb die Varianz mit und die Erwartung mit . $Var[\cdot]$ $E[\cdot]$

V a r [b] = E [b^{2}] - E [b] E [b^{'}]

$Var[b]=E[b^2]-E[b]E[b']$

Im Wesentlichen haben wir die allgemeine Varianzformel, nur unter Verwendung der Matrixnotation. Die Gleichung wird aufgelöst, wenn im Standardausdruck der Schätzer . Nehmen Sie auch an, dass ein unvoreingenommener Schätzer ist. Somit erhalten wir: $b=(X'X)^{-1}X'y$ $E[b]=\beta$

E [((X^{'} X)^{- 1} X^{'} y)^{2}] - \underset{2 \times 2}{β^{2}}

$E[((X'X)^{-1}X'y)^2] - \underset{2 \times 2}{\beta^2}$

Beachten Sie, dass wir auf der rechten Seite eine - 2x2-Matrix haben, nämlich , aber Sie können an dieser Stelle bereits raten, was in Kürze mit diesem Begriff geschehen wird. $\beta^2$ $bb'$

Durch Ersetzen von durch unseren Ausdruck für den oben beschriebenen eigentlichen Datenerzeugungsprozess haben wir: $y$

\begin{aligned} E [((X^{'} X)^{- 1} X^{'} y)^{2}] - β^{2} & = E [((X^{'} X)^{- 1} X^{'} (X β + u))^{2}] - β^{2} \\ = E [(\underset{= I}{\underset{⏟}{(X^{'} X)^{- 1} X^{'} X}} β + (X^{'} X)^{- 1} X^{'} u)^{2}] - β^{2} \\ = E [(β + (X^{'} X)^{- 1} X^{'} u)^{2}] - β^{2} \\ = β^{2} + E [(X^{'} X)^{- 1} X^{'} u)^{2}] - β^{2} \end{aligned}

$\begin{align*} E\Big[\Big((X'X)^{-1}X'y\Big)^2\Big] - \beta^2 &= E\Big[\Big((X'X)^{-1}X'(X\beta+u)\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\underbrace{(X'X)^{-1}X'X}_{=I}\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= \beta^2+E\Big[\Big(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \end{align*}$

da . Darüber hinaus wird der quadratische Term wie erwartet gelöscht. $E[u]=0$ $\beta^2$

So haben wir:

V a r [b] = ((X^{'} X)^{- 1} X^{'})^{2} E [u^{2}]

$Var[b]=((X'X)^{-1}X')^2E[u^2]$

Durch Linearität der Erwartungen. Man beachte, dass nach Annahme und da eine Symmetriematrix und damit die gleiche wie ihre Transponierte ist. Endlich kommen wir an $E[u^2]=\sigma^2$ $((X'X)^{-1}X')^2=(X'X)^{-1}X'X(X'X)'^{-1}=(X'X)^{-1}$ $X'X$ $K\times K$

V a r [b] = σ^{2} (X^{'} X)^{- 1}

$Var[b]=\sigma^2(X'X)^{-1}$

Jetzt, da wir alle Begriffe losgeworden sind. Intuitiv ist die Varianz des Schätzers unabhängig vom Wert des wahren zugrunde liegenden Koeffizienten, da dies an sich keine Zufallsvariable ist. Das Ergebnis gilt für alle einzelnen Elemente in der Varianz-Kovarianz-Matrix, wie im Buch gezeigt, also auch für die nicht diagonalen Elemente, die jeweils mit aufgehoben werden. Das einzige Problem war, dass Sie die allgemeine Formel für die Varianz angewendet hatten, die diese Stornierung zunächst nicht widerspiegelt. $\beta$ $\beta_0\beta_1$

Letztendlich reduziert sich die Varianz der Koeffizienten auf und ist unabhängig von . Aber was heißt das? (Ich glaube, Sie haben auch um ein allgemeineres Verständnis der allgemeinen Kovarianzmatrix gebeten.) $\sigma^2(X'X)^{-1}$ $\beta$

Schauen Sie sich die Formel im Buch an. Es wird einfach angenommen, dass die Varianz des Schätzers zunimmt, wenn der wahre zugrunde liegende Fehlerterm verrauscht ist ( nimmt zu), aber abnimmt, wenn die Streuung von X zunimmt. Da sich mehr Beobachtungen um den wahren Wert verteilen, können Sie im Allgemeinen einen Schätzer erstellen, der genauer und damit näher an der wahren . Andererseits werden die Kovarianzterme auf der Off-Diagonale bei der Hypothesentestung von Gelenkhypothesen wie praktisch relevant . Davon abgesehen sind sie wirklich ein bisschen fudge. Hoffe das klärt alle Fragen. $\sigma^2$ $\beta$ $b_0=b_1=0$

— Majte
quelle

und wenn die Spreizung konstant gehalten und die x verringert wird, wird der Standardfehler des Abschnitts kleiner, was sinnvoll ist.

— Theta30

Ich verfolge die Ausdehnung des Platzes nicht. Warum wird nicht vereinfacht zu ?

((X^{'} X)^{- 1} X^{'})^{2} = ((X^{'} X)^{- 1} X^{'}) ((X^{'} X)^{- 1} X^{'}) = X^{- 2}

$((X'X)^{-1}X')^2 = ((X'X)^{-1}X')((X'X)^{-1}X') = X^{-2}$

— David

2

In Ihrem Fall haben wir

X^{'} X = [\begin{matrix} n & \sum X_{i} \\ \sum X_{i} & \sum X_{i}^{2} \end{matrix}]

$X'X=\begin{bmatrix}n & \sum X_i\\\sum X_i & \sum X_i^2\end{bmatrix}$

Invertieren Sie diese Matrix und Sie erhalten das gewünschte Ergebnis.

— mpiktas
quelle

1

Es scheint, dass die vorhergesagten Werte (erwarteten Werte) sind. Sie schalten zwischen und . $\beta_0 \beta_1$ $E(b_0)=\beta_0$ $E(b_1)=\beta_1$

— Drew75
quelle

β_{0}

$\beta_0$ und sind im Allgemeinen unbekannt. Worauf können sie umstellen?

β_{1}

$\beta_1$

— Qed

Ich glaube, ich verstehe die Verwirrung, und ich denke, sie hätten vielleicht schreiben sollen, anstatt . Hier ist ein weiterer Beitrag, der die Berechnung durchläuft: link

β_{0}^{*}

$\beta_0^*$

β_{0}

$\beta_0$

— Drew75

2

@qed: um Schätzungen der unbekannten Größen zu berechnen.

— Glen_b