Warum müssen Sie auf Normalität prüfen?
Die Standardannahme bei der linearen Regression ist, dass die theoretischen Residuen unabhängig und normalverteilt sind. Die beobachteten Residuen sind eine Schätzung der theoretischen Residuen, sind jedoch nicht unabhängig (es gibt Transformationen der Residuen, die einen Teil der Abhängigkeit beseitigen, aber dennoch nur eine Annäherung an die wahren Residuen geben). Ein Test der beobachteten Residuen garantiert also nicht, dass die theoretischen Residuen übereinstimmen.
Wenn die theoretischen Residuen nicht genau normalverteilt sind, aber die Stichprobengröße groß genug ist, ist nach dem zentralen Grenzwertsatz die übliche Folgerung (Tests und Konfidenzintervalle, jedoch nicht unbedingt Vorhersageintervalle), die auf der Annahme der Normalität beruht, immer noch ungefähr korrekt .
Beachten Sie auch, dass die Normalitätstests Ausschlusstests sind. Sie können Ihnen mitteilen, dass die Daten wahrscheinlich nicht aus einer Normalverteilung stammen. Wenn der Test jedoch nicht aussagekräftig ist, was nicht bedeutet, dass die Daten aus einer normalen Verteilung stammen, kann dies auch bedeuten, dass Sie nicht über genügend Strom verfügen, um den Unterschied zu erkennen. Größere Stichprobengrößen bieten mehr Leistung für die Erkennung der Nichtnormalität, größere Stichproben und die CLT bedeuten jedoch, dass die Nichtnormalität am unwichtigsten ist. Für kleine Stichprobengrößen ist die Annahme der Normalität wichtig, aber die Tests sind bedeutungslos. Für große Stichprobengrößen sind die Tests möglicherweise genauer, aber die Frage der exakten Normalität wird bedeutungslos.
Wenn man also all das oben Genannte kombiniert, ist es wichtiger als ein Test der exakten Normalität, die Wissenschaft zu verstehen, die hinter den Daten steckt, um festzustellen, ob die Bevölkerung nahe genug an der Normalität liegt. Diagramme wie qqplots können eine gute Diagnose sein, aber es ist auch ein Verständnis der Wissenschaft erforderlich. Besteht die Befürchtung, dass zu viele Abweichungen vorliegen oder möglicherweise Ausreißer auftreten, stehen nicht parametrische Methoden zur Verfügung, für die keine Normalitätsannahme erforderlich ist.