Bedeutet die Annahme von normalen Fehlern, dass Y auch normal ist?

12

Wenn ich mich nicht irre, wird in einem linearen Modell angenommen, dass die Verteilung der Antwort eine systematische und eine zufällige Komponente aufweist. Der Fehlerbegriff erfasst die zufällige Komponente. Wenn wir also davon ausgehen, dass der Fehlerterm normalverteilt ist, bedeutet das dann nicht, dass die Antwort auch normalverteilt ist? Ich denke schon, aber dann scheinen Aussagen wie die folgende ziemlich verwirrend:

Und Sie können deutlich sehen, dass die einzige Annahme von "Normalität" in diesem Modell darin besteht, dass die Residuen (oder "Fehler" ) normal verteilt sein sollten. Es gibt keine Annahme über die Verteilung des Prädiktors oder der Antwortvariablen . $\epsilon_i$ $x_i$ $y_i$

Quelle: Prädiktoren, Antworten und Residuen: Was muss eigentlich normal verteilt werden?

regression assumptions

— Ernest A
quelle

7

Wenn die

nicht stochastisch sind, impliziert die Normalität von

die Normalität der abhängigen Variablen. Für stochastisch unabhängige Variablen gilt dies im Allgemeinen nicht, es hängt dann von der Verteilung der unabhängigen Variablen ab.

x

$x$

ϵ

$\epsilon$

19

Das Standard-OLS-Modell ist mit für ein festes . $Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

Dies bedeutet in der Tat, dass , obwohl dies eine Konsequenz unserer Annahme über die Verteilung von , anstatt tatsächlich die Annahme zu sein. Denkenauch darandass ich über die bedingte Verteilung von rede , nicht die Randverteilung von . Ich konzentriere mich auf die bedingte Verteilung, weil ich denke, dass Sie genau danach fragen. $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

Ich denke, der verwirrende Teil ist, dass dies nicht bedeutet, dass ein Histogramm von normal aussehen wird. Wir sagen, dass der gesamte Vektor ein einziger Zug aus einer multivariaten Normalverteilung ist, wobei jedes Element einen potentiell unterschiedlichen Mittelwert . Dies ist nicht dasselbe wie eine normale Stichprobe. Die Fehler egr tatsächlich eine iid-Stichprobe, so dass ein Histogramm von ihnen normal aussehen würde (und deshalb machen wir eine QQ-Darstellung der Residuen, nicht der Antwort). $Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

Hier ist ein Beispiel: Angenommen, wir messen die Höhe für eine Stichprobe von 6. und 12. Schülern. Unser Modell ist mit . Wenn wir uns ein Histogramm des ansehen, werden wir wahrscheinlich eine bimodale Verteilung mit einem Peak für Schüler der 6. Klasse und einem Peak für Schüler der 12. Klasse sehen, aber das stellt keinen Verstoß gegen unsere Annahmen dar. $H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

— jld
quelle

Könnte jemand bitte die Notation

klären ?

σ^{2} I_{n}

$\sigma^2 I_n$

— Snoram

Es bedeutet die

Identitätsmatrix multipliziert mit einem Skalar

.

n \times n

$n \times n$

σ^{2}

$\sigma^2$

— Jld

n \times n

$n\times n$

11

Wenn wir also davon ausgehen, dass der Fehlerterm normalverteilt ist, bedeutet das dann nicht, dass die Antwort auch normalverteilt ist?

Nicht einmal aus der Ferne. Ich erinnere mich daran, dass die Residuen unter normalen Bedingungen vom deterministischen Teil des Modells abhängen . Hier ist eine Demonstration, wie das in der Praxis aussieht.

Ich beginne damit, zufällig Daten zu generieren. Dann definiere ich ein Ergebnis, das eine lineare Funktion der Prädiktoren ist, und schätze ein Modell.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Schauen wir uns an, wie diese Residuen aussehen. Ich vermute, dass sie normal verteilt sein sollten, da dem Ergebnis ynormales Rauschen hinzugefügt wurde. Und in der Tat ist das der Fall.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Wenn wir jedoch die Verteilung von y überprüfen, können wir feststellen, dass dies definitiv nicht normal ist! Ich habe die Dichtefunktion mit dem gleichen Mittelwert und der gleichen Varianz überlagert wie y, aber es ist offensichtlich eine schreckliche Anpassung!

Der Grund, warum dies in diesem Fall passiert ist, ist, dass die Eingabedaten nicht einmal aus der Ferne normal sind. Nichts an diesem Regressionsmodell erfordert Normalität, außer in den Residuen - nicht in der unabhängigen Variablen und nicht in der abhängigen Variablen.

— Sycorax sagt Reinstate Monica
quelle

8

Nein, das tut es nicht. Nehmen wir zum Beispiel an, wir haben ein Modell, das das Gewicht der olympischen Athleten vorhersagt. Während das Gewicht normalerweise auf die Athleten in jeder Sportart verteilt sein könnte, ist es nicht unter allen Athleten - es ist möglicherweise nicht einmal unimodal.

— Peter Flom - Wiedereinsetzung von Monica
quelle