Bedingter Mittelwert bei linearer Regression

Ich habe eine Frage zur linearen Regression im Allgemeinen. Angenommen, wir haben den folgenden Datengenerierungsprozess:

y_{i} = x_{i} β + ϵ_{i}

$y_{i}=x_{i}\beta+\epsilon_{i}$

Nach meinem Verständnis ist jede Beobachtung eine Zufallsvariable, dh jedes hat einen bedingten Mittelwert , dh : unter Exogenitätsannahmen. Meine Frage lautet wie folgt. Was ist das bedingungslose Mittel von ? Was bedeutet wirklich, wenn wir eine Stichprobe von n Datenpunkten haben ? Ist es der Mittelwert des Zufallsvektors von ? Wie gilt hier das Gesetz der iterierten Erwartungen? $y_{i}$

E [y_{i} | x_{i}] = x_{i} β

$E[y_{i}|x_{i}]=x_{i}\beta$

y

$y$

E [y]

$E[y]$

y_{i}^{'} s

$y_{i}'s$

regression conditional-expectation

— ChinG
quelle

In diesen Situationen ist es wichtig, präzise zu sein und zwischen dem Datenmodell und den Daten selbst zu unterscheiden. Eine Möglichkeit, über lineare Regression nachzudenken, besteht darin, dass wir die folgende Beziehung zu dem nicht erkennbaren statistischen Prozess annehmen, der die Daten generiert hat, über die wir verfügen

E [Y ∣ X] = β_{0} + X β

$E[Y \mid X] = \beta_0 + X \beta$

Beta ist zu diesem Zeitpunkt eine unbekannte Konstante, daher stellen wir nur eine Hypothese auf, wie die Form der Beziehung unserer Meinung nach aussieht . Angesichts der Daten verwenden wir dann eine Methode, um zu bestimmen, was sein soll, damit die hypothetische Beziehung wahrscheinlich die Daten generiert, über die wir verfügen (maximale Wahrscheinlichkeit ist sehr beliebt). $\beta$

Auch ohne , können wir die Beziehung manipulieren, um einige Dinge über die Konsequenzen unserer Annahmen zu lernen $\beta$

E [Y] = E [E [Y ∣ X]] = β_{0} + β E [X] = β_{0} + β E [X]

$E[Y] = E[E[Y \mid X]] = \beta_0 + \beta E[X] = \beta_0 + \beta E[X]$

Nun, die Verteilung von ist im Allgemeinen nicht Teil unserer strukturellen Annahmen bei der Regression, daher ist dies im Allgemeinen so weit wie möglich. $X$

Oft werden wir unsere Daten für zentrieren, was unserem Modell die Einschränkung auferlegt . In diesem Fall können wir ableiten $X$ $E[X] = 0$

E [Y] = β_{0}

$E[Y] = \beta_0$

Aus diesem Grund empfiehlt dieses Buch beispielsweise, Prädiktoren (in einigen Situationen) so zu zentrieren, dass der Modellabschnitt interpretierbar ist.

Meine Frage ist nun, wie dies mit dem Stichprobenmittelwert von y zusammenhängt.

Wenn Sie das Modell durch kleinste Quadrate anpassen und den Prädiktor zentriert haben , ist der Modellabschnitt der Stichprobenmittelwert. $x$

Geometrisch muss die Linie der kleinsten Quadrate durch den Massenmittelpunkt der Daten verlaufen . Wenn Sie zentriert haben , ist , sodass die Linie durch . Wenn Sie diese Werte in die Modellgleichung , erhalten Sie . $(\bar x, \bar y)$ $x$ $\bar x = 0$ $(0, \bar y)$ $\beta_0 = \bar y$

Algebraisch lautet die Gleichung der kleinsten Quadrate . Wenn Sie an die Matrix denken , ist die erste Spalte alles (die Intercept-Spalte), und da zentriert ist, ist diese Intercept-Spalte orthogonal zur Datenspalte. Dies bedeutet, dass die erste Zeile von wie aussieht (wobei die Anzahl der Datenpunkte ist). Dann ist die erste Komponente der linken Seite . Auf der rechten Seite ist die erste Komponente . Wenn Sie sie gleichsetzen, erhalten Sie das Ergebnis . $(X^t X) \vec{\beta} = X^t y$ $X$ $x$ $X^t X$ $(N, 0)$ $N$ $N\beta_0$ $\sum_i y_i$ $\beta_0 = \bar y$

Es ist auch wahr, dass der Mittelwert der Vorhersagen gleich . Da dies die geschätzten bedingten Mittel sind (unter der Annahme), erhalten Sie eine Beziehung wie die, die Sie suchen. Um dies zu sehen, beobachten Sie einfach, dass die Vorhersagen , und gruppieren Sie die Gleichung der kleinsten Quadrate als $\bar y$ $X \vec{\beta}$

X^{t} (X \vec{β}) = X^{t} y

$X^t (X \vec{\beta}) = X^t y$

Verwenden Sie jetzt ein ähnliches Argument wie oben.

— Matthew Drury
quelle

Entschuldigung @Matthew. Ich stimme Ihrer ersten Gleichung nicht zu. Unter Exogenität sollte der Epsilon-Begriff nicht vorhanden sein. Eine andere Möglichkeit, meine Frage zu stellen, besteht darin, eine Aussage über das bedingte Mittel der Beobachtung gegenüber dem bedingten Mittel der abhängigen Variablen in der gesamten Stichprobe zu treffen. Ich vermute, sie sind verwandt!

— ChinG

Ich glaube, Sie haben in diesem ersten Punkt absolut Recht, das sollte nicht da sein, das ist Nachlässigkeit meinerseits, ich werde es beheben! Ich habe versucht, die hier oft genannten Normalitätsannahmen zu vermeiden, aber ich war durcheinander. Können Sie Ihren zweiten Punkt klarstellen?

ϵ

$\epsilon$

— Matthew Drury

Vielen Dank für Ihre schnelle Antwort. Meine Frage lautet also im Grunde die folgende. Jede Beobachtung hat den von Ihnen erwähnten bedingten Mittelwert, der im Grunde x_i'b ist. Meine Frage ist nun, wie dies mit dem Stichprobenmittelwert von y zusammenhängt. Ich möchte den bedingten Mittelwert einer bestimmten Beobachtung mit dem bedingungslosen Mittelwert aller Beobachtungen in der Stichprobe vergleichen. Im Grunde genommen würde y_i einer bestimmten Beobachtung entsprechen, während Y dem Vektor der Beobachtungen entsprechen würde. Meine Frage ist, wie sich das bedingte Mittel jeder Beobachtung auf das Mittel der Beobachtungen bezieht. Vielen Dank!

— ChinG

@ChinG Ich habe versucht, Ihre Frage zu beantworten, hoffentlich hilft das.

— Matthew Drury

Um den bedingungslosen Mittelwert (oder Randmittelwert) von Y zu erhalten, wird die Verteilung von X benötigt, wenn der Mittelwert von Y wie in Ihrer Frage von X abhängt. Wenn Sie die Verteilung von X nicht kennen und nicht schätzen können, ist es unmöglich, den bedingungslosen Mittelwert von Y abzuleiten.

— user158565
quelle