QQ-Plot sieht normal aus, aber Shapiro-Wilk-Test sagt etwas anderes


12

In R habe ich eine Stichprobe von 348 Kennzahlen und möchte wissen, ob ich davon ausgehen kann, dass sie für zukünftige Tests normalverteilt sind.

Nach einer weiteren Stack-Antwort betrachte ich im Wesentlichen die Dichtekurve und die QQ-Kurve mit:

plot(density(Clinical$cancer_age))

Bildbeschreibung hier eingeben

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

Bildbeschreibung hier eingeben

Ich habe keine große Erfahrung mit Statistik, aber sie sehen aus wie Beispiele für Normalverteilungen, die ich gesehen habe.

Dann führe ich den Shapiro-Wilk-Test durch:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Wenn ich es richtig interpretiere, sagt es mir, dass es sicher ist, die Nullhypothese abzulehnen, die besagt, dass die Verteilung normal ist.

Ich bin jedoch auf zwei Stapelpfosten gestoßen ( hier und hier ), die die Nützlichkeit dieses Tests stark untergraben. Wenn die Stichprobe groß ist (gilt 348 als groß?), Wird immer gesagt, dass die Verteilung nicht normal ist.

Wie soll ich das alles interpretieren? Sollte ich mich an den QQ-Plot halten und davon ausgehen, dass meine Verteilung normal ist?


4
Das qq-Diagramm scheint eine Abweichung von der Normalität in den Schwänzen zu zeigen. Auch jede nützliche Prüfung der Anpassungsgüte wird bei sehr großen Stichproben abgelehnt, weil nur geringe Abweichungen von der Normalität festgestellt werden. Dies ist keine Kritik am Shapiro-Wilk-Test, sondern ein Merkmal der Prüfung der Anpassungsgüte.
Michael R. Chernick

4
Warum ist Ihnen die Annahme einer Normalverteilung wichtig? Was beabsichtigen Sie auf der Grundlage dieser Annahme zu tun?
Roland

6
Nur um Rolands Kommentare zu ergänzen: Viele Tests, die formal eine Normalverteilung annehmen, sind bei geringfügigen Abweichungen von der Normalverteilung tatsächlich ziemlich robust (z. B. weil die Verteilung der Teststatistik asymptotisch korrekt ist). Wenn Sie näher erläutern können, was Sie vorhaben, erhalten Sie möglicherweise hilfreichere Antworten.
P.Windridge

1
@mdewey, scharfe Beobachtung! Es ist nicht das Alter bei der Inzidenz, sondern das "Alter" des Tumors, gemessen durch DNA-Methylierung.
francoiskroll

2
Ich denke, es lohnt sich, die wenigen extremen Beobachtungen zu untersuchen, um festzustellen, ob es sich um Messfehler handelt.
mdewey

Antworten:


11

Sie haben hier kein Problem. Ihre Daten meine sein etwas nicht normal, aber es ist normal genug , dass es keine Probleme mit sich bringen sollte. Viele Forscher führen statistische Tests unter der Annahme einer Normalität durch, die weitaus weniger normale Daten enthält als die von Ihnen.

Ich würde deinen Augen vertrauen. Die Dichte- und QQ-Diagramme sehen trotz einiger leichter positiver Schrägstellungen an den Schwänzen angemessen aus. Meiner Meinung nach brauchen Sie sich keine Sorgen über die Nichtnormalität dieser Daten zu machen.

Sie haben ein N von ungefähr 350, und die p-Werte hängen stark von den Stichprobengrößen ab. Bei einer großen Stichprobe kann fast alles von Bedeutung sein. Dies wurde hier diskutiert.

Es gibt einige unglaubliche Antworten auf diesen sehr beliebten Beitrag, die im Grunde genommen zu dem Schluss kommen, dass die Durchführung eines Nullhypothesen-Signifikanztests für Nicht-Normalität "im Wesentlichen nutzlos" ist. Die akzeptierte Antwort auf diesen Beitrag ist eine fabelhafte Demonstration, dass selbst wenn Daten aus einem beinahe Gaußschen Prozess generiert wurden , eine ausreichend große Stichprobengröße den nicht normalen Test signifikant macht.


Entschuldigung, mir ist aufgefallen, dass ich auf einen Beitrag verlinkt habe, den Sie in Ihrer ursprünglichen Frage erwähnt hatten. Mein Fazit bleibt jedoch bestehen: Ihre Daten sind nicht so unüblich, dass es Probleme geben sollte.


Nur weil manche Forscher sehr schlampig sind, heißt das nicht, dass Sie ein bisschen schlampig sein können :). Ich stimme jedoch zu, dass viele statistische Tests, die formal von Normalität ausgehen, tatsächlich ziemlich tolerant gegenüber dem sind, was Sie dem
P.Windridge

2
"Nur weil manche Forscher sehr schlampig sind, heißt das nicht, dass Sie ein bisschen schlampig sein können :)" Fair point; das war ein schlechtes argument meinerseits. "Ich bin jedoch damit einverstanden, dass viele statistische Tests, die formal von Normalität ausgehen, tatsächlich ziemlich tolerant gegenüber dem sind, was Sie ihnen zuführen." Ja in der Tat. Jeder Quant-Professor, den ich hatte, hat sich QQ-Diagramme wie dieses angesehen und gesagt: "Ja, das ist in Ordnung."
Mark White

4

Ihre Verteilung ist nicht normal. Schau dir die Schwänze an (oder das Fehlen davon). Im Folgenden sehen Sie, was Sie von einem normalen QQ-Diagramm erwarten würden.

Bildbeschreibung hier eingeben

In diesem Beitrag erfahren Sie, wie Sie verschiedene QQ-Diagramme interpretieren.

Denken Sie daran, dass eine Distribution zwar technisch nicht normal ist, aber normal genug, um sich für Algorithmen zu qualifizieren, die Normalität erfordern.


1
Wovon redest du, ich habe 9 normale qq-Diagramme ausgeführt, die Beispiele bilden, die direkt mit dem Code set.seed (100) par (mfrow = c (3,3)) für (i in 1: 9) {x <eine Normalverteilung bilden - rnorm (350) qqnorm (x) qqline (x)} und plot (3,2) sehen der Situation von OP sehr ähnlich.
Josh

1
Normalerweise möchten Sie sich nicht auf die Schwänze konzentrieren, da diese oft komisch sind, obwohl extrem schlechte Schwänze zu schlechten Ergebnissen führen. Sie möchten sich wirklich auf die Mitte konzentrieren.
Josh

du bist falsch Josh. Bitte wenden Sie sich an einen normalen Test, um zu prüfen, ob die Nullhypothese der Normalität abgelehnt wird.
Wiedergutmachung

1
Du hast recht. Ich habe Ihren Beitrag anfangs gelesen, da die QQ-Diagramme nicht normal genug waren, und ich entschuldige mich.
Josh

2
@Josh, die Mitte der Verteilung ist für Hypothesentests kaum von Bedeutung. Auf die Schwänze kommt es an. Das hast du rückwärts.
gung - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.