Ich bin ein bisschen verwirrt, was die Annahmen der linearen Regression sind.
Bisher habe ich geprüft, ob:
- Alle erklärenden Variablen korrelierten linear mit der Antwortvariablen. (Dies war der Fall)
- es gab irgendeine Kollinearität zwischen den erklärenden Variablen. (Es gab wenig Kollinearität).
- Die Cook-Abstände der Datenpunkte meines Modells liegen unter 1 (dies ist der Fall, alle Abstände liegen unter 0,4, also keine Einflusspunkte).
- Die Reste sind normalverteilt. (Dies ist möglicherweise nicht der Fall)
Ich habe dann aber folgendes gelesen:
Normalitätsverletzungen treten häufig auf, weil (a) die Verteilungen der abhängigen und / oder unabhängigen Variablen selbst signifikant nicht normal sind und / oder (b) die Linearitätsannahme verletzt wird.
Frage 1 Das klingt so, als müssten die unabhängigen und abhängigen Variablen normal verteilt werden, aber meines Wissens ist dies nicht der Fall. Meine abhängige Variable sowie eine meiner unabhängigen Variablen sind normalerweise nicht verteilt. Sollten sie sein?
Frage 2 Mein QQnormal-Plot der Residuen sieht folgendermaßen aus:
Das weicht ein wenig von einer Normalverteilung ab und shapiro.test
lehnt auch die Nullhypothese ab, dass die Residuen von einer Normalverteilung stammen:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Die Residuen im Vergleich zu angepassten Werten sehen folgendermaßen aus:
Was kann ich tun, wenn meine Residuen nicht normal verteilt sind? Bedeutet das, dass das lineare Modell völlig unbrauchbar ist?