Dieses Problem scheint die ganze Zeit seinen hässlichen Kopf zu haben, und ich versuche, es für mein eigenes Verständnis von Statistik (und Vernunft!) Zu enthaupten.
Die Annahmen allgemeiner linearer Modelle (t-Test, ANOVA, Regression usw.) beinhalten die "Annahme der Normalität", aber ich habe festgestellt, dass dies selten klar beschrieben wird.
Ich stoße oft auf Statistiklehrbücher / -handbücher usw., in denen ich lediglich feststelle, dass die "Annahme der Normalität" für jede Gruppe gilt (dh kategoriale X-Variablen), und wir sollten Abweichungen von der Normalität für jede Gruppe untersuchen .
Fragen :
bezieht sich die Annahme auf die Werte von Y oder die Residuen von Y?
Ist es für eine bestimmte Gruppe möglich, eine stark nicht normale Verteilung der Y- Werte (z. B. verzerrt) zu haben, ABER eine annähernd (oder zumindest normalere) Verteilung der Reste von Y?
Andere Quellen beschreiben, dass sich die Annahme auf die Residuen des Modells bezieht (in Fällen, in denen es Gruppen gibt, z. B. t-Tests / ANOVA), und wir sollten Abweichungen von der Normalität dieser Residuen untersuchen (dh nur ein QQ-Diagramm / Test) Lauf).
Bedeutet Normalität der Residuen für das Modell Normalität der Residuen für die Gruppen ? Mit anderen Worten, sollten wir nur die Modellreste untersuchen (entgegen den Anweisungen in vielen Texten)?
Um dies in einen Kontext zu stellen, betrachten Sie dieses hypothetische Beispiel:
- Ich möchte die Baumhöhe (Y) zwischen zwei Populationen (X) vergleichen.
- In einer Population ist die Verteilung von Y stark nach rechts geneigt (dh die meisten Bäume sind kurz, nur sehr wenige hoch), während die andere Population praktisch normal ist
- Die Körpergröße ist in der normalverteilten Bevölkerung insgesamt höher (was darauf hindeutet, dass es einen „echten“ Unterschied gibt).
- Die Transformation der Daten verbessert die Verteilung der ersten Population nicht wesentlich.
Ist es erstens gültig, die Gruppen angesichts der radikal unterschiedlichen Höhenverteilungen zu vergleichen?
Wie gehe ich hier an die "Normalitätsannahme" heran? Die Rückrufhöhe in einer Population ist normalerweise nicht verteilt. Untersuche ich Residuen für beide Populationen separat ODER Residuen für das Modell (t-Test)?
Bitte beziehen Sie sich bei Antworten auf Fragen nach Nummer. Die Erfahrung hat gezeigt, dass sich Leute leicht verlaufen oder ablenken (besonders ich!). Denken Sie daran, ich bin kein Statistiker; obwohl ich einigermaßen konzeptuelles (dh kein technisches!) Verständnis der Statistik habe.
PS, ich habe die Archive durchsucht und die folgenden Themen gelesen, die mein Verständnis nicht gefestigt haben:
- ANOVA-Annahme Normalität / Normalverteilung von Residuen
- Normalität der Residuen gegenüber den Probendaten; Was ist mit T-Tests?
- Ist das Testen der Normalität im Wesentlichen nutzlos?
- Normalität testen
- Bewertung der Normalität der Verteilung
- Mit welchen Tests bestätige ich, dass die Residuen normal verteilt sind?
- Was tun, wenn der Kolmogorov-Smirnov-Test für Reste des parametrischen Tests von Bedeutung ist, aber Schiefe und Kurtosis normal aussehen?