Nützlichkeit des Frisch-Waugh-Theorems

Ich soll den Satz von Frish Waugh in Ökonometrie unterrichten, den ich nicht studiert habe.

Ich habe die Mathematik dahinter verstanden und hoffe auch, dass "der Koeffizient, den Sie für einen bestimmten Koeffizienten aus einem multiplen linearen Modell erhalten, dem Koeffizienten des einfachen Regressionsmodells entspricht, wenn Sie den Einfluss der anderen Regressoren" eliminieren ". Die theoretische Idee ist also irgendwie cool. (Wenn ich total missverstanden habe, freue ich mich über eine Korrektur)

Aber hat es einige klassische / praktische Verwendungen?

EDIT : Ich habe eine Antwort akzeptiert, bin aber immer noch bereit, neue zu haben, die andere Beispiele / Anwendungen bringen.

— Anthony Martin
quelle

Eine naheliegende wäre es , variable Diagramme hinzuzufügen ?

— Silberfischchen

In Doughertys Einführung in die Ökonometrie wird ein weiteres Beispiel für die Verwendung des Frisch-Waugh-Lovell-Theorems genannt. In den frühen Tagen der ökonometrischen Analyse von Zeitreihen war es in Modellen üblich, dass Variablen deterministische Zeittrends aufwiesen, um sie alle vor der Regression zu zerstören. Aber durch FWL erhalten Sie die gleichen Koeffizienten, indem Sie einfach einen Zeittrend als Regressor einbeziehen, und darüber hinaus erhalten Sie die "richtigen" Standardfehler, da bestätigt wird, dass 1 df dadurch verbraucht wurde.

— Silberfischchen

Dougherty warnt vor dem Verfahren, daher ist es in dieser Hinsicht kein gutes Beispiel, auch wenn es ein lehrreiches ist. Ökonomische Variablen scheinen oft eher differenzstabil als trendstabil zu sein, so dass diese Art von versuchtem Detrending nicht funktioniert und zu unechten Regressionen führen kann.

— Silberfischchen

@Silverfish: FWL ist eine rein algebraische Technik, daher ist die Frage, ob das Extrahieren eines deterministischen Trends angesichts des zugrunde liegenden DGP "richtig" ist, zweifellos wichtig, aber in keinem Zusammenhang mit FWL. In diesem Sinne ist Ihr Beispiel also absolut richtig OPs fragen nach den zwei Möglichkeiten, um Punktschätzungen zu erhalten.

— Christoph Hanck

Ich habe diese Beziehung in vielen Beiträgen genutzt, vor allem für konzeptionelle Zwecke und um interessante Beispiele für Regressionsphänomene zu liefern. Siehe, unter anderem , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 und stats.stackexchange.com/a/71257 .

— Whuber

Antworten:

Betrachten Sie das Datenmodell des festen Effektfensters, das auch als LSDV-Modell (Least Squares Dummy Variables) bezeichnet wird.

$b_{LSDV}$ kann berechnet werden, indem OLS direkt auf das Modell angewendet wird

y = X β + D α + ϵ,

$y=X\beta+D\alpha+\epsilon,$ wobei

D

$D$ eine

N T \times N

$NT\times N$ Matrix von Dummys ist und

α

$\alpha$ die individuell spezifischen festen Effekte darstellt.

Eine andere Möglichkeit, zu berechnen, $b_{LSDV}$ besteht darin, die sogenannte Innentransformation auf das übliche Modell anzuwenden , um eine herabgesetzte Version davon zu erhalten, dh

M_{[D]} y = M_{[D]} X β + M_{[D]} ϵ .

$M_{[D]}y=M_{[D]}X\beta+M_{[D]}\epsilon.$ Hier ist

M_{[D]} = I - D (D^{'} D)^{- 1} D^{'}

$M_{[D]}=I-D(D'D)^{-1}D'$ , die Restherstellermatrix einer Regression auf

D

$D$ .

Durch den Frisch-Waugh-Lovell Satz, die beide sind gleichwertig, wie FWL sagt , dass Sie eine Teilmenge von Regressionskoeffizienten einer Regression berechnen können (hier $\hat\beta$ ) durch

Regression von auf die anderen Regressoren (hier ), Speichern der Residuen (hier das zeitgeminderte oder $y$ $D$ $y$ , weil die Regression auf eine Konstante nur die Variablen herabsetzt), dann $M_{[D]}y$
Regression des auf und Speichern der Residuen $X$ $D$ und $M_{[D]}X$
die Residuen aufeinander regressieren, auf $M_{[D]}y$ . $M_{[D]}X$

Die zweite Version wird viel häufiger verwendet, da typische Paneldatensätze möglicherweise Tausende von Panel-Einheiten , sodass Sie beim ersten Ansatz eine Regression mit Tausenden von Regressoren durchführen müssten, was zahlenmäßig auch heutzutage mit schnell keine gute Idee ist Computer, da das Berechnen der Inversen von sehr teuer wäre, während das zeitliche Verringern von und mit geringen Kosten verbunden ist. $N$ $(D :X)'(D: X)$ $y$ $X$

— Christoph Hanck
quelle

Vielen Dank, das ist die Art von Antwort, nach der ich gesucht habe, obwohl es für mich etwas fortgeschritten ist, sie tatsächlich zu verwenden. Also deine Antwort passt zu mir, aber ich würde mich freuen, wenn ich andere habe. Soll ich deine akzeptieren?

— Anthony Martin

Wenn es helfen würde, wäre es angebracht, dies zu tun. Das Akzeptieren verringert jedoch die Wahrscheinlichkeit, dass Sie bessere Antworten erhalten. Sie können also überlegen, mit dem Akzeptieren dieser Antwort zu warten. Ein Kopfgeld würde Ihre Chancen weiter erhöhen, mehr Antworten zu erhalten - da es nicht genügend Benutzer im Lebenslauf gibt, die regelmäßig Fragen beantworten, kann sogar eine einzige Antwort andere aktive Benutzer zu dem Schluss führen, dass die Fragen behandelt wurden. (Ich habe unten eine etwas einfachere Antwort gepostet.)

— Christoph Hanck

Hier ist eine vereinfachte Version meiner ersten Antwort, die meiner Meinung nach weniger relevant ist, aber möglicherweise leichter für den Unterricht zu "verkaufen" ist.

Die Regressionen und identisch Ausbeute ,

y_{i} = β_{1} + \sum_{j = 2}^{K} β_{j} x_{i j} + ϵ_{i}

$y_i = \beta_1 + \sum_{j=2}^K\beta_jx_{ij} + \epsilon_i$

y_{i} - \bar{y} = \sum_{j = 2}^{K} β_{j} (x_{i j} - {\bar{x}}_{j}) + {\tilde{ϵ}}_{i}

$y_i-\bar{y} = \sum^K_{j=2}\beta_j(x_{ij} - \bar{x}_j) + \tilde{\epsilon}_i$

{\hat{β}}_{j}

$\widehat{\beta}_j$

j = 2, \dots, K

$j=2,\ldots,K$ . Dies kann wie folgt gesehen werden: nimm

und damit

x_{1} = 1 := (1, \dots, 1)^{'}

$\mathbf{x}_1=\mathbf{1}:=(1,\ldots,1)'$

so dass

Daher sind die Residuen einer Regression von Variablen auf einer Konstanten

nur die erniedrigten Variablen (dieselbe Logik gilt natürlich für

M_{1} = I - 1 (1^{'} 1)^{- 1} 1^{'} = I - \frac{1 1^{'}}{n},

$M_\mathbf{1}=I-\mathbf{1}(\mathbf{1}'\mathbf{1})^{-1}\mathbf{1}'=I-\frac{\mathbf{1}\mathbf{1}'}{n},$

M_{1} x_{j} = x_{j} - 1 n^{- 1} 1^{'} x_{j} = x_{j} - 1 {\bar{x}}_{j} =: x_{j} - {\bar{x}}_{j} .

$M_{\mathbf{1}}\mathbf{x}_j=\mathbf{x}_j-\mathbf{1} n^{-1}\mathbf{1}'\mathbf{x}_j=\mathbf{x}_j-\mathbf{1}\bar{x}_j=:\mathbf{x}_j-\bar{\mathbf{x}}_j.$

M_{1} x_{j}

$M_{\mathbf{1}}\mathbf{x}_j$

y_{i}

$y_i$

— Christoph Hanck
quelle

Hier ist eine andere, indirektere, aber meiner Meinung nach interessante, nämlich der Zusammenhang zwischen verschiedenen Ansätzen zur Berechnung des partiellen Autokorrelationskoeffizienten einer stationären Zeitreihe.

Definition 1

{\hat{Y}}_{t} - μ = α_{1}^{(m)} (Y_{t - 1} - μ) + α_{2}^{(m)} (Y_{t - 2} - μ) + \dots + α_{m}^{(m)} (Y_{t - m} - μ)

$\begin{equation} \hat{Y}_{t}-\mu=\alpha^{(m)}_1(Y_{t-1}-\mu)+\alpha^{(m)}_2(Y_{t-2}-\mu)+\ldots+\alpha^{(m)}_m(Y_{t-m}-\mu) \end{equation}$

m

$m$

α_{m}^{(m)}

$\alpha^{(m)}_m$

$m$ $Y_t$ $Y_{t-1},\ldots,Y_{t-m+1}$ $\rho_m$ $Y_t$ $Y_{t-m}$

$\alpha^{(m)}_j$ $Z_t$ $X_t$

E [X_{t} (Z_{t} - X_{t}^{⊤} α^{(m)})] = 0

$\begin{equation} E[X_t(Z_t-X_t^\top\mathbf{\alpha}^{(m)})]=0 \end{equation}$

α^{(m)}

$\mathbf{\alpha}^{(m)}$ we find the linear projection coefficients

α^{(m)} = [E (X_{t} X_{t}^{⊤})]^{- 1} E [X_{t} Z_{t}]

$\begin{equation} \mathbf{\alpha}^{(m)}=[E(X_tX_t^\top)]^{-1}E[X_tZ_t] \end{equation}$ Applying this formula to

Z_{t} = Y_{t} - μ

$Z_t=Y_t-\mu$ and

X_{t} = [(Y_{t - 1} - μ), (Y_{t - 2} - μ), \dots, (Y_{t - m} - μ)]^{⊤}

$X_t=[(Y_{t-1}-\mu),(Y_{t-2}-\mu),\ldots,(Y_{t-m}-\mu)]^\top$ we have

E (X_{t} X_{t}^{⊤}) = (\begin{array}{cccc} γ_{0} & γ_{1} & \dots & γ_{m - 1} \\ γ_{1} & γ_{0} & \dots & γ_{m - 2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ γ_{m - 1} & γ_{m - 2} & \dots & γ_{0} \end{array})

$E(X_tX_t^\top)=\left(\begin{array}{cccc} \gamma_{0} & \gamma_{1}&\cdots& \gamma_{m-1}\\ \gamma_{1}& \gamma_{0} & \cdots &\gamma_{m-2}\\ \vdots & \vdots & \ddots &\vdots\\ \gamma_{m-1}&\gamma_{m-2} & \cdots & \gamma_{0}\\ \end{array} \right)$ Also,

E (X_{t} Z_{t}) = (\begin{matrix} γ_{1} \\ ⋮ \\ γ_{m} \end{matrix})

$E(X_tZ_t)=\left( \begin{array}{c} \gamma_1 \\ \vdots \\ \gamma_m \\ \end{array} \right)$ Hence,

α^{(m)} = {(\begin{array}{cccc} γ_{0} & γ_{1} & \dots & γ_{m - 1} \\ γ_{1} & γ_{0} & \dots & γ_{m - 2} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ γ_{m - 1} & γ_{m - 2} & \dots & γ_{0} \end{array})}^{- 1} (\begin{matrix} γ_{1} \\ ⋮ \\ γ_{m} \end{matrix})

$\begin{equation} \mathbf{\alpha}^{(m)}=\left(\begin{array}{cccc} \gamma_{0} & \gamma_{1}&\cdots& \gamma_{m-1}\\ \gamma_{1}& \gamma_{0} & \cdots &\gamma_{m-2}\\ \vdots & \vdots & \ddots &\vdots\\ \gamma_{m-1}&\gamma_{m-2} & \cdots & \gamma_{0}\\ \end{array} \right)^{-1}\left( \begin{array}{c} \gamma_1 \\ \vdots \\ \gamma_m \\ \end{array} \right)\end{equation}$ The

m

$m$ th partial correlation then is the last element of the vector

α^{(m)}

$\mathbf{\alpha}^{(m)}$ .

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The $m$ th partial correlation is the correlation of the prediction error of $Y_{t+m}$ predicted with $Y_{t-1},\ldots,Y_{t-m+1}$ with the prediction error of $Y_{t}$ predicted with $Y_{t-1},\ldots,Y_{t-m+1}$ .

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

— Christoph Hanck
quelle