Normalitätsannahme bei linearer Regression


11

Als Annahme einer linearen Regression wird die Normalität der Fehlerverteilung manchmal fälschlicherweise "erweitert" oder als Notwendigkeit der Normalität von y oder x interpretiert.

Ist es möglich, ein Szenario / einen Datensatz zu erstellen, bei dem X und Y nicht normal sind, der Fehlerterm jedoch lautet und daher die erhaltenen linearen Regressionsschätzungen gültig sind?


5
Triviales Beispiel: X hat eine Bernoulli-Verteilung (dh mit den Werten 0 oder 1); Y = X + N (0, 0,1). Weder X noch Y sind normalerweise alleine verteilt, aber die Regression von Y auf X funktioniert immer noch.
Hong Ooi

Ich denke, Sie denken über die Verteilung der Residuen nach, nicht über die Verteilung der Variablen.
Taschuhka


Antworten:


16

Erweiterung des Kommentars von Hong Oois mit einem Bild. Hier ist ein Bild eines Datensatzes, in dem keiner der Ränder normal verteilt ist, die Residuen jedoch noch vorhanden sind. Daher gelten die Annahmen der linearen Regression weiterhin:

Geben Sie hier die Bildbeschreibung ein

Das Bild wurde mit dem folgenden R-Code erzeugt:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.