Varianz-Kovarianz-Matrix der Fehler in der linearen Regression


12

Wie wird die Var / Cov-Fehlermatrix in der Praxis von statistischen Analysepaketen berechnet?

Diese Idee ist mir theoretisch klar. Aber nicht in der Praxis. Ich meine, wenn ich einen Vektor von Zufallsvariablen , verstehe ich, dass die Varianz / Kovarianz-Matrix erhält das externe Produkt der vom Mittelwert abweichenden Vektoren: .X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

Aber wenn ich eine Stichprobe habe, sind die Fehler meiner Beobachtungen keine Zufallsvariablen. Oder besser, aber nur, wenn ich mehrere identische Proben aus derselben Population nehme. Ansonsten sind sie gegeben. Meine Frage lautet also erneut: Wie kann ein statistisches Paket eine Var / Cov-Matrix erstellen, die von einer Liste von Beobachtungen (dh einer Stichprobe) ausgeht, die vom Forscher geliefert wurden?


Die Fehler Ihrer Beobachtungen sind eine Funktion einer Zufallsvariablen (der ys) und daher selbst zufällig. Abhängig von X allein werden sie nicht angegeben.
user603

1
Ja, da stimme ich voll und ganz zu. Aber was Sie sagen, funktioniert theoretisch. Wenn ich beispielsweise 100 Zufallsstichproben gleicher Größe aus derselben Population ziehe, ist jeder Beobachtungsfehler eine Zufallsvariable mit (0, Sigma ^ 2). Was ist, wenn ich stattdessen nur eine Probe zeichne? In diesem Fall ist der Mittelwert des Fehlers jeder Beobachtung der Fehler selbst. Ist klar, was ich sage? Ich versuche zu verstehen, wie ein Paket wie Stata die Varianz-Kovarianz-Matrix mit nur einer Stichprobe aus der Population berechnet.
Riccardo

Antworten:


7

Die Kovarianzmatrix für ein Modell vom Typ wird normalerweise als berechnet, wobei ist Restsumme der Quadrate, und sind die Freiheitsgrade (typischerweise die Anzahl der Beobachtungen abzüglich der Anzahl der Parameter).y=Xβ+ϵ

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

Für robuste und / oder gruppierte Standardfehler wird das Produkt geringfügig geändert. Es kann auch andere Möglichkeiten geben, die Kovarianzmatrix zu berechnen, z. B. wie durch die Erwartung äußerer Produkte nahegelegt.XtX


3
  1. OLS-Schätzung der Fehlervarianz , :σ2

s2=ε^ε^np

Dies ist in Practical Regression und Anova using R von Julian J. Faraway, Seite 21, enthalten .

Beispiel für die Berechnung in R, basierend auf einem linearen Modell von Meilen pro Gallone, das auf mehreren in der mtcarsDatenbank enthaltenen Fahrzeugmodellspezifikationen zurückgegangen ist : ols = lm(mpg ~ disp + drat + wt, mtcars). Dies sind die manuellen Berechnungen und die Ausgabe der lm()Funktion:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. Varianz - Kovarianzmatrix der geschätzten Koeffizienten , :β^

Var[β^X]=σ2(XX)1

geschätzt wie auf Seite 8 dieses Online-Dokuments als

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

Mit linearer Regression passen wir ein Modell . ist die abhängige Variable, die sind die Prädiktorvariablen (erklärende Variablen). Wir verwenden die uns zur Verfügung gestellten Daten (das Trainingsset oder die Stichprobe), um die Population zu schätzen . Die werden nicht als Zufallsvariablen betrachtet. Die sind aufgrund der Fehlerkomponente zufällig.Y X β X Y.Y=βX+εYXβXY


Hallo Rajiv, danke für die Korrektur. Können Sie also erklären, wie Stata (oder ein anderes Statistikpaket) ausgehend von Y (und epsilon) die Varianz-Kovarianz-Matrix Sigma ableiten kann?
Riccardo

durch Berechnen von . e^e^
user603

Stimmen Sie mit user603 überein. Bitte überprüfen Sie Seite 21 von cran.r-project.org/doc/contrib/Faraway-PRA.pdf . Dies basiert auf R, beinhaltet aber eine gute Diskussion der Theorie hinter der linearen Regression.
Rajiv Sambasivan

Hallo beide, erstmal danke. Ich stimme Ihnen auch zu, user603, und ich habe diese Antwort erwartet. Wenn die Var / Cov-Matrix jedoch durch Berechnung des externen Produkts der Fehlervektoren berechnet wird, bedeutet dies, dass die Cov unter den Fehlerkomponenten in den meisten Fällen nicht Null ist, wie die Hypothese der Unabhängigkeit implizieren würde. Recht? Darum dreht sich mein Zweifel. Rajiv, ich habe mir den guten Leitfaden angesehen, den Sie vorgeschlagen haben, konnte aber keine Antwort finden. Vielen Dank im Voraus für jede zukünftige Antwort.
Riccardo
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.