In R habe ich eine Stichprobe von 348 Kennzahlen und möchte wissen, ob ich davon ausgehen kann, dass sie für zukünftige Tests normalverteilt sind.
Nach einer weiteren Stack-Antwort betrachte ich im Wesentlichen die Dichtekurve und die QQ-Kurve mit:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Ich habe keine große Erfahrung mit Statistik, aber sie sehen aus wie Beispiele für Normalverteilungen, die ich gesehen habe.
Dann führe ich den Shapiro-Wilk-Test durch:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Wenn ich es richtig interpretiere, sagt es mir, dass es sicher ist, die Nullhypothese abzulehnen, die besagt, dass die Verteilung normal ist.
Ich bin jedoch auf zwei Stapelpfosten gestoßen ( hier und hier ), die die Nützlichkeit dieses Tests stark untergraben. Wenn die Stichprobe groß ist (gilt 348 als groß?), Wird immer gesagt, dass die Verteilung nicht normal ist.
Wie soll ich das alles interpretieren? Sollte ich mich an den QQ-Plot halten und davon ausgehen, dass meine Verteilung normal ist?