Ein Kommentar in einer anderen Frage ließ Zweifel an der Wichtigkeit der Bedingung aufkommen und argumentierte, dass sie durch die Aufnahme eines konstanten Terms in die Regressionsspezifikation korrigiert werden könne und daher "leicht ignoriert werden könne".E(u∣X)=0
Das ist nicht so. Die Einbeziehung eines konstanten Terms in die Regression absorbiert das möglicherweise von Null verschiedene bedingte Mittel des Fehler-Terms, wenn wir annehmen, dass dieses bedingte Mittel bereits eine Konstante und keine Funktion der Regressoren ist . Dies ist die entscheidende Annahme, die unabhängig davon getroffen werden muss, ob wir einen konstanten Term einschließen oder nicht:
E(u∣X)=const.
Wenn dies zutrifft, wird der Mittelwert ungleich Null zu einem Ärgernis, das wir einfach durch Einfügen eines konstanten Terms lösen können.
Wenn dies jedoch nicht zutrifft (dh wenn das bedingte Mittel keine Null- oder Nicht-Null- Konstante ist ), löst die Einbeziehung des konstanten Terms das Problem nicht: Was es in diesem Fall "absorbiert", ist eine Größe das hängt von der spezifischen Stichprobe und den Erkenntnissen der Regressoren ab. In der Realität ist der unbekannte Koeffizient, der an die Reihe von Einsen gebunden ist, nicht wirklich eine Konstante, sondern eine Variable, die von den Regressoren durch das nicht konstante bedingte Mittel des Fehlerausdrucks abhängt.
Was bedeutet das?
Nehmen wir zur Vereinfachung den einfachsten Fall an, in dem ( i indiziert die Beobachtungen), aber E ( u i ≤ x i ) = h ( x i ) . Dh , dass der Fehlerterm von den Regressoren mit Ausnahme von seiner vorübergehenden diejenigen mittleren unabhängig ist (in X wir nicht umfassen eine Reihe von Einsen).E(ui∣X−i)=0iE(ui∣xi)=h(xi)X
Angenommen, wir spezifizieren die Regression unter Einbeziehung eines konstanten Terms (eines Regressors aus einer Reihe von Einsen).
y=a+Xβ+ε
and compacting notation
y=Zγ+ε
where a=(a,a,a...)′, Z=[1:X], γ=(a,β)′, ε=u−a.
Then the OLS estimator will be
γ^=γ+(Z′Z)−1Z′ε
For unbiasedness we need E[ε∣Z]=0. But
E[εi∣xi]=E[ui−a∣xi]=h(xi)−a
which cannot be zero for all i, since we examine the case where h(xi) is not a constant function. So
E[ε∣Z]≠0⟹E(γ^)≠γ
and
If E(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj), then even if we include a constant term in the regression, the OLS estimator will not be unbiased, meaning also that the Gauss-Markov result on efficiency, is lost.
Moreover, the error term ε has a different mean for each i, and so also a different variance (i.e. it is conditionally heteroskedastic). So its distribution conditional on the regressors differs across the observations i.
But this means that even if the error term ui is assumed normal, then the distribution of the sampling error γ^−γ will be normal but not zero-mean mormal, and with unknown bias. And the variance will differ.
So
If E(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj), then even if we include a constant term in the regression, Hypothesis testing is no longer valid.
In other words, "finite-sample" properties are all gone.
We are left only with the option to resort to asymptotically valid inference, for which we will have to make additional assumptions.
So simply put, Strict Exogeneity cannot be "easily ignored".