Wie werden die Standardfehler von Koeffizienten in einer Regression berechnet?

114

Nach meinem eigenen Verständnis bin ich daran interessiert, die Berechnung der Standardfehler der geschätzten Koeffizienten manuell zu wiederholen, da sie beispielsweise mit der Ausgabe der lm()Funktion einhergehen R, diese aber nicht festhalten können. Was ist die Formel / Implementierung verwendet?

— ako
quelle

Gute Frage, viele Leute kennen die Regression aus der Sicht der linearen Algebra, wo Sie die lineare Gleichung und die Antwort für beta erhalten. Unklar, warum wir Standardfehler und Annahme dahinter haben.

X^{'} X β = X^{'} y

$X'X\beta=X'y$

— Haitao Du

Antworten:

122

Das lineare Modell wird als Dabei bezeichnet den Vektor der Antworten, den Vektor der Parameter für feste Effekte, die entsprechende Entwurfsmatrix, deren Spalten die Werte der erklärenden Variablen sind, und ist der Vektor zufälliger Fehler.

| \begin{array}{l} y = X β + ϵ \\ ϵ \sim N (0, σ^{2} I), \end{array}

$\left| \begin{array}{l} \mathbf{y} = \mathbf{X} \mathbf{\beta} + \mathbf{\epsilon} \\ \mathbf{\epsilon} \sim N(0, \sigma^2 \mathbf{I}), \end{array} \right.$

y

$\mathbf{y}$

β

$\mathbf{\beta}$

X

$\mathbf{X}$

ϵ

$\mathbf{\epsilon}$

Es ist bekannt, dass eine Schätzung von gegeben ist durch (siehe z. B. den Wikipedia-Artikel ) Also [Erinnerung: , für einen zufälligen Vektor und eine nicht zufällige Matrix ] $\mathbf{\beta}$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y}.$

Var (\hat{β}) = (X^{'} X)^{- 1} X^{'} σ^{2} I X (X^{'} X)^{- 1} = σ^{2} (X^{'} X)^{- 1},

$\textrm{Var}(\hat{\mathbf{\beta}}) = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \;\sigma^2 \mathbf{I} \; \mathbf{X} (\mathbf{X}^{\prime} \mathbf{X})^{-1} = \sigma^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1},$

Var (A X) = A \times Var (X) \times A'

$\textrm{Var}(AX)=A\times \textrm{Var}(X) \times A′$

X

$X$

A

$A$

so dass wobei durch den Mean Square Error (MSE) in der ANOVA-Tabelle erhalten werden kann.

\hat{Var} (\hat{β}) = {\hat{σ}}^{2} (X^{'} X)^{- 1},

$\widehat{\textrm{Var}}(\hat{\mathbf{\beta}}) = \hat{\sigma}^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1},$

{\hat{σ}}^{2}

$\hat{\sigma}^2$

Beispiel mit einer einfachen linearen Regression in R

#------generate one data set with epsilon ~ N(0, 0.25)------
seed <- 1152 #seed
n <- 100     #nb of observations
a <- 5       #intercept
b <- 2.7     #slope

set.seed(seed)
epsilon <- rnorm(n, mean=0, sd=sqrt(0.25))
x <- sample(x=c(0, 1), size=n, replace=TRUE)
y <- a + b * x + epsilon
#-----------------------------------------------------------

#------using lm------
mod <- lm(y ~ x)
#--------------------

#------using the explicit formulas------
X <- cbind(1, x)
betaHat <- solve(t(X) %*% X) %*% t(X) %*% y
var_betaHat <- anova(mod)[[3]][2] * solve(t(X) %*% X)
#---------------------------------------

#------comparison------
#estimate
> mod$coef
(Intercept)           x 
   5.020261    2.755577 

> c(betaHat[1], betaHat[2])
[1] 5.020261 2.755577

#standard error
> summary(mod)$coefficients[, 2]
(Intercept)           x 
 0.06596021  0.09725302 

> sqrt(diag(var_betaHat))
                    x 
0.06596021 0.09725302 
#----------------------

Wenn es eine einzelne erklärende Variable gibt, reduziert sich das Modell auf und so dass und Formeln werden transparenter. Beispielsweise ist der Standardfehler der geschätzten Steigung

y_{i} = a + b x_{i} + ϵ_{i}, i = 1, \dots, n

$y_i = a + bx_i + \epsilon_i, \qquad i = 1, \dotsc, n$

X = (\begin{array}{cc} 1 & x_{1} \\ 1 & x_{2} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{array}), β = (\begin{matrix} a \\ b \end{matrix})

$\mathbf{X} = \left( \begin{array}{cc} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_n \end{array} \right), \qquad \mathbf{\beta} = \left( \begin{array}{c} a\\b \end{array} \right)$

(X^{'} X)^{- 1} = \frac{1}{n \sum x_{i}^{2} - (\sum x_{i})^{2}} (\begin{array}{cc} \sum x_{i}^{2} & - \sum x_{i} \\ - \sum x_{i} & n \end{array})

$(\mathbf{X}^{\prime} \mathbf{X})^{-1} = \frac{1}{n\sum x_i^2 - (\sum x_i)^2} \left( \begin{array}{cc} \sum x_i^2 & -\sum x_i \\ -\sum x_i & n \end{array} \right)$

\sqrt{\hat{Var} (\hat{b})} = \sqrt{[{\hat{σ}}^{2} (X^{'} X)^{- 1}]_{22}} = \sqrt{\frac{n {\hat{σ}}^{2}}{n \sum x_{i}^{2} - (\sum x_{i})^{2}}} .

$\sqrt{\widehat{\textrm{Var}}(\hat{b})} = \sqrt{[\hat{\sigma}^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1}]_{22}} = \sqrt{\frac{n \hat{\sigma}^2}{n\sum x_i^2 - (\sum x_i)^2}}.$

> num <- n * anova(mod)[[3]][2]
> denom <- n * sum(x^2) - sum(x)^2
> sqrt(num / denom)
[1] 0.09725302

— Ocram
quelle

Danke für die gründliche Antwort. Also nehme ich an, die letzte Formel gilt nicht für den multivariaten Fall?

— Ako

Nein, die letzte Formel funktioniert nur für die spezifische X-Matrix des einfachen linearen Modells. Im multivariaten Fall müssen Sie die oben angegebene allgemeine Formel verwenden.

— 2.

+1, eine kurze Frage, wie kommt ?

V a r (\hat{β})

$Var(\hat\beta)$

— Avocado

@loganecolss: Es kommt von der Tatsache , dass , für einige Zufallsvektor und einige nicht-Zufallsmatrix .

Var (A X) = A Var(X) A^{'}

$\text{Var}(AX)=A\text{Var(X)}A'$

X

$X$

A

$A$

— 9.

Beachten Sie, dass dies die richtigen Antworten für die Handberechnung sind, die tatsächliche Implementierung in lm.fit/ summary.lmjedoch aus

— Ben Bolker

Die Formeln hierfür finden Sie in jedem Zwischentext zur Statistik, insbesondere finden Sie sie in Sheather (2009, Kapitel 5) , aus dem auch die folgende Übung stammt (Seite 138).

Der folgende R-Code berechnet die Koeffizientenschätzungen und ihre Standardfehler manuell

dfData <- as.data.frame(
  read.csv("http://www.stat.tamu.edu/~sheather/book/docs/datasets/MichelinNY.csv",
                   header=T))

# using direct calculations
vY <- as.matrix(dfData[, -2])[, 5]                        # dependent variable
mX <- cbind(constant = 1, as.matrix(dfData[, -2])[, -5])  # design matrix

vBeta <- solve(t(mX)%*%mX, t(mX)%*%vY)                    # coefficient estimates
dSigmaSq <- sum((vY - mX%*%vBeta)^2)/(nrow(mX)-ncol(mX))  # estimate of sigma-squared
mVarCovar <- dSigmaSq*chol2inv(chol(t(mX)%*%mX))          # variance covariance matrix
vStdErr <- sqrt(diag(mVarCovar))                          # coeff. est. standard errors
print(cbind(vBeta, vStdErr))                              # output

was die Ausgabe erzeugt

                         vStdErr
constant   -57.6003854 9.2336793
InMichelin   1.9931416 2.6357441
Food         0.2006282 0.6682711
Decor        2.2048571 0.3929987
Service      3.0597698 0.5705031

Vergleichen Sie mit der Ausgabe von lm():

# using lm()
names(dfData)
summary(lm(Price ~ InMichelin + Food + Decor + Service, data = dfData))

was die Ausgabe erzeugt:

Call:
lm(formula = Price ~ InMichelin + Food + Decor + Service, data = dfData)

Residuals:
    Min      1Q  Median      3Q     Max 
-20.898  -5.835  -0.755   3.457 105.785 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -57.6004     9.2337  -6.238 3.84e-09 ***
InMichelin    1.9931     2.6357   0.756    0.451    
Food          0.2006     0.6683   0.300    0.764    
Decor         2.2049     0.3930   5.610 8.76e-08 ***
Service       3.0598     0.5705   5.363 2.84e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 13.55 on 159 degrees of freedom
Multiple R-squared: 0.6344, Adjusted R-squared: 0.6252 
F-statistic: 68.98 on 4 and 159 DF,  p-value: < 2.2e-16

— tchakravarty
quelle

Netter Trick mit der solve()Funktion. Dies wäre ohne die Matrixalgebra viel länger. Gibt es eine prägnante Möglichkeit, diese bestimmte Zeile nur mit Basisoperatoren auszuführen?

— Ako

@AkselO Es gibt den bekannten Ausdruck in geschlossener Form für den OLS-Schätzer: , das Sie berechnen können, indem Sie die Inverse der -Matrix explizit berechnen (wie es @ ocram getan hat), aber dies wird mit schlecht konditionierten Matrizen schwierig.

\hat{β} = (X^{'} X)^{- 1} X Y

$\widehat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}\boldsymbol{Y}$

(X^{'} X)

$(\mathbf{X}'\mathbf{X})$

— Tschakravarty

Ein Teil von Ocrams Antwort ist falsch. Tatsächlich:

$\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y} - (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}.$

$E(\hat{\mathbf{\beta}}) = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y}.$

Der Kommentar der ersten Antwort zeigt, dass weitere Erklärungen zur Varianz des Koeffizienten erforderlich sind:

$\textrm{Var}(\hat{\mathbf{\beta}}) = E(\hat{\mathbf{\beta}}-E(\hat{\mathbf{\beta}}))^2=\textrm{Var}(- (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}) =(\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \;\sigma^2 \mathbf{I} \; \mathbf{X} (\mathbf{X}^{\prime} \mathbf{X})^{-1} = \sigma^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1}$

Bearbeiten

Danke, ich habe den Hut auf dieser Beta zu ignoriert. Der obige Abzug ist . Das richtige Ergebnis ist: $\mathbf{wrongly}$ $\mathbf{wrong}$

1.(Um diese Gleichung zu erhalten, setzen Sie die Ableitung erster Ordnung von auf auf Null, um zu maximieren. ) $\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y}.$ $\mathbf{SSR}$ $\mathbf{\beta}$ $\mathbf{SSR}$

2. $E(\hat{\mathbf{\beta}}|\mathbf{X}) = E((\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} (\mathbf{X}\mathbf{\beta}+\mathbf{\epsilon})|\mathbf{X}) = \mathbf{\beta} + ((\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime})E(\mathbf{\epsilon}|\mathbf{X}) = \mathbf{\beta}.$

3. $\textrm{Var}(\hat{\mathbf{\beta}}) = E(\hat{\mathbf{\beta}}-E(\hat{\mathbf{\beta}}|\mathbf{X}))^2=\textrm{Var}((\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}) =(\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \;\sigma^2 \mathbf{I} \; \mathbf{X} (\mathbf{X}^{\prime} \mathbf{X})^{-1} = \sigma^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1}$

Hoffentlich hilft es.

— Linzhe Nie
quelle

Die Herleitung des OLS-Schätzers für den Beta-Vektor, , findet sich in jedem anständigen Regressionslehrbuch. Können Sie vor diesem Hintergrund den Beweis erbringen, dass es sich um stattdessen?

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\hat{\boldsymbol \beta} = ({\bf X'X})^{-1}{\bf X'Y}$

\hat{β} = (X^{'} X)^{- 1} X^{'} y - (X^{'} X)^{- 1} X^{'} ϵ

$\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y} - (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}$

— Gung

Ihr ist nicht einmal ein Schätzer, weil nicht beobachtbar ist!

\hat{β}

$\hat\beta$

ϵ

$\epsilon$

— Whuber

Dies kann auch in diesem Video angesehen werden: youtube.com/watch?v=jyBtfhQsf44

— StatsStudent