Ist das Testen der Normalität im Wesentlichen nutzlos?


298

Ein ehemaliger Kollege hat einmal zu mir gesagt:

Normalerweise wenden wir Normalitätstests auf die Ergebnisse von Prozessen an, die unter Null Zufallsvariablen erzeugen, die nur asymptotisch oder fast normal sind (wobei der asymptotische Teil von einer Menge abhängt, die wir nicht groß machen können). In Zeiten von billigem Speicher, Big Data und schnellen Prozessoren sollten Normalitätstests immer die Null der Normalverteilung für große (wenn auch nicht wahnsinnig große) Samples ablehnen. Daher sollten Normalitätstests perverserweise nur für kleine Stichproben verwendet werden, wenn sie vermutlich eine geringere Leistung und eine geringere Kontrolle über die Typ-I-Rate aufweisen.

Ist das ein gültiges Argument? Ist das ein bekanntes Argument? Gibt es bekannte Tests für eine „unschärfere“ Nullhypothese als die Normalität?


23
Als Referenz: Ich glaube nicht, dass dies ein Community-Wiki sein musste.
Shane

2
Ich war mir nicht sicher, ob es eine "richtige Antwort" gab ...
shabbychef

5
In gewissem Sinne gilt dies für alle Tests einer endlichen Anzahl von Parametern. Mit fixierte (die Anzahl der Parameter , auf denen der Test caried ist) und growthing ohne Grenzen, ein Unterschied zwischen den beiden Gruppen (egal wie klein) immer null bricht die an einem gewissen Punkt. Tatsächlich spricht dies für Bayes-Tests. nkn
user603

2
Für mich ist das kein gültiges Argument. Bevor Sie eine Antwort geben, müssen Sie die Dinge ein wenig formalisieren. Sie können sich irren und Sie können sich nicht irren, aber jetzt ist das, was Sie haben, nichts weiter als eine Intuition: Für mich lautet der Satz "In Zeiten billigen Speichers, großer Datenmengen und schneller Prozessoren sollten Normalitätstests immer die Null des Normalen ablehnen." braucht Klarstellungen :) Ich denke, wenn Sie versuchen, formale Präzision zu geben, wird die Antwort einfach sein.
Robin Girard

8
Der Thread unter "Sind große Datensätze für Hypothesentests ungeeignet" behandelt eine Verallgemeinerung dieser Frage. ( stats.stackexchange.com/questions/2516/… )
whuber

Antworten:


229

Es ist kein Streit. Es ist eine (ein bisschen nachdrückliche) Tatsache, dass formale Normalitätstests immer die riesigen Stichprobengrößen ablehnen, mit denen wir heute arbeiten. Es ist sogar leicht zu beweisen, dass selbst die kleinste Abweichung von der perfekten Normalität zu einem signifikanten Ergebnis führt, wenn n groß wird. Und da jeder Datensatz einen gewissen Grad an Zufälligkeit aufweist, ist kein einzelner Datensatz eine perfekt normalverteilte Stichprobe. In der angewandten Statistik ist die Frage jedoch nicht, ob die Daten / Residuen ... völlig normal sind, sondern normal genug, um die Annahmen zu treffen.

Lassen Sie mich mit dem Shapiro-Wilk-Test veranschaulichen . Der folgende Code erstellt eine Reihe von Verteilungen, die sich der Normalität nähern, jedoch nicht vollständig normal sind. Als nächstes testen wir, shapiro.testob eine Stichprobe aus diesen fast normalen Verteilungen von der Normalität abweicht. In R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

Die letzte Zeile prüft, welcher Anteil der Simulationen für jede Stichprobengröße signifikant von der Normalität abweicht. So weicht in 87% der Fälle eine Stichprobe von 5000 Beobachtungen nach Shapiro-Wilks signifikant von der Normalität ab. Wenn Sie jedoch die qq-Diagramme sehen, würden Sie sich niemals für eine Abweichung von der Normalität entscheiden. Unten sehen Sie als Beispiel die qq-Diagramme für einen Satz von Zufallsstichproben

Alt-Text

mit p-Werten

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
Nebenbei bemerkt macht der zentrale Grenzwertsatz die formale Normalitätsprüfung in vielen Fällen überflüssig, wenn n groß ist.
Joris Meys

31
Ja, die eigentliche Frage ist nicht, ob die Daten tatsächlich normal verteilt sind, sondern ob sie ausreichend normal sind, damit die zugrunde liegende Annahme der Normalität für den praktischen Zweck der Analyse angemessen ist, und ich hätte gedacht, dass das auf CLT basierende Argument normalerweise [sic] ist. ausreichend dafür.
Dikran Beuteltier

53
Diese Antwort scheint die Frage nicht zu beantworten: Sie zeigt lediglich, dass der SW-Test nicht sein nominales Konfidenzniveau erreicht, und identifiziert daher einen Fehler in diesem Test (oder zumindest in der RImplementierung). Aber das ist alles - es hat keinen Einfluss auf den Umfang der Nützlichkeit von Normalitätstests im Allgemeinen. Die anfängliche Behauptung, dass Normalitätstests bei großen Stichproben immer ablehnen, ist einfach falsch.
Whuber

19
@whuber Diese Antwort beantwortet die Frage. Der springende Punkt der Frage ist das "Nahe" an "Fast-Normalität". SW testet, wie hoch die Wahrscheinlichkeit ist, dass die Probe aus einer Normalverteilung gezogen wird. Da die von mir erstellten Distributionen absichtlich nicht normal sind, würde man erwarten, dass der SW-Test hält, was er verspricht: lehnen Sie die Null ab. Der springende Punkt ist, dass diese Zurückweisung bei großen Stichproben bedeutungslos ist, da die Abweichung von der Normalität dort nicht zu einem Leistungsverlust führt. Der Test ist also korrekt, aber bedeutungslos, wie die QQplots
Joris Meys vom

11
Ich hatte mich auf das verlassen, was Sie geschrieben und missverstanden haben, was Sie unter einer "fast normalen" Distribution verstanden haben. Ich sehe jetzt - aber nur, indem Sie den Code lesen und sorgfältig testen -, dass Sie aus drei normalen Normalverteilungen mit Mitteln bei und simulieren und die Ergebnisse in einem Verhältnis von kombinieren . Würdest du nicht hoffen, dass ein guter Test der Normalität die Null in diesem Fall ablehnen würde? Was Sie effektiv demonstriert haben, ist, dass QQ-Diagramme solche Gemische nicht sehr gut nachweisen können, das ist alles! 0, 1,22:2:1
Whuber

172

Wenn man darüber nachdenkt, ob Normalitätstests "im Wesentlichen nutzlos" sind, muss man sich zuerst überlegen, wofür sie nützlich sein sollen. Viele Leute (zumindest viele Wissenschaftler) verstehen die Frage, die der Normalitätstest beantwortet, falsch.

Die Frage Normalitätstests beantworten: Gibt es überzeugende Beweise für eine Abweichung vom Gaußschen Ideal? Bei mäßig großen realen Datensätzen lautet die Antwort fast immer Ja.

Die Frage, die Wissenschaftler häufig von der Beantwortung des Normalitätstests erwarten: Weichen die Daten ausreichend vom Gaußschen Ideal ab, um die Verwendung eines Tests "zu verbieten", der eine Gaußsche Verteilung voraussetzt? Wissenschaftler möchten häufig, dass der Normalitätstest der Schiedsrichter ist, der entscheidet, wann herkömmliche (ANOVA usw.) Tests aufgegeben und stattdessen transformierte Daten analysiert oder einen rangbasierten nichtparametrischen Test oder einen Resampling- oder Bootstrap-Ansatz verwendet. Zu diesem Zweck sind Normalitätstests nicht sehr nützlich.


16
+1 für eine gute und informative Antwort. Ich finde es nützlich, eine gute Erklärung für ein allgemeines Missverständnis zu finden (das ich übrigens selbst erlebt habe: stats.stackexchange.com/questions/7022/… ). Was ich jedoch vermisse, ist eine alternative Lösung für dieses häufige Missverständnis. Ich meine, wenn Normalitätstests der falsche Weg sind, wie prüft man dann, ob eine normale Annäherung akzeptabel / gerechtfertigt ist?
posdef

6
Es gibt keinen Ersatz für den (gesunden) Menschenverstand des Analytikers (oder auch des Forschers / Wissenschaftlers). Und Erfahrung (gelernt durch Versuchen und Sehen: Welche Schlussfolgerungen bekomme ich, wenn ich davon ausgehe, dass es normal ist? Was ist der Unterschied, wenn nicht?). Grafiken sind deine besten Freunde.
FairMiles

2
Ich mag dieses Papier, das genau das ausdrückt, was Sie gesagt haben: Micceri, T. (1989). Das Einhorn, die normale Kurve und andere unwahrscheinliche Kreaturen. Psychological Bulletin, 105 (1), 156-166.
Jeremy Miles

4
Das Betrachten von Grafiken ist großartig, aber was ist, wenn zu viele Grafiken manuell überprüft werden müssen? Können wir angemessene statistische Verfahren formulieren, um auf mögliche Problemstellen hinzuweisen? Ich denke an Situationen wie A / B-Experimentatoren in großem Maßstab: exp-platform.com/Pages/… .
Dfrankow

118

Ich denke, dass Normalitätstests als Begleiter für grafische Untersuchungen nützlich sein können. Sie müssen jedoch richtig eingesetzt werden. Meiner Meinung nach bedeutet dies, dass viele beliebte Tests, wie die Shapiro-Wilk-, Anderson-Darling- und Jarque-Bera-Tests, niemals verwendet werden sollten.

Bevor ich meinen Standpunkt erläutere, möchte ich noch einige Anmerkungen machen:

  • In einem interessanten kürzlich erschienenen Aufsatz von Rochon et al. untersuchte die Auswirkung des Shapiro-Wilk-Tests auf den T-Test mit zwei Stichproben. Das zweistufige Verfahren des Testens auf Normalität, bevor beispielsweise ein T-Test durchgeführt wird, ist nicht ohne Probleme. Dann wieder, weder ist das zweistufige Verfahren der grafisch Normalität zu untersuchen , bevor Sie einen t-Test durchgeführt wird . Der Unterschied besteht darin, dass die Auswirkung des letzteren viel schwieriger zu untersuchen ist (da ein Statistiker etwa Mal die Normalität grafisch untersuchen müsste ...).100,000
  • Es ist nützlich, die Nicht-Normalität zu quantifizieren , beispielsweise durch Berechnen der Probenversetzung, auch wenn Sie keinen formalen Test durchführen möchten.
  • Die multivariate Normalität kann schwierig grafisch zu bewerten sein und die Konvergenz zu asymptotischen Verteilungen kann für multivariate Statistiken langsam sein. Normalitätstests sind daher in einer multivariaten Umgebung nützlicher.
  • Normalitätstests sind möglicherweise besonders nützlich für Praktiker, die Statistiken als Black-Box-Methode verwenden . Wenn die Normalität abgelehnt wird, sollte der Arzt alarmiert sein und statt eines Standardverfahrens, das auf der Annahme der Normalität basiert, die Verwendung eines nichtparametrischen Verfahrens, die Anwendung einer Transformation oder die Konsultation eines erfahreneren Statistikers in Betracht ziehen.
  • Wie von anderen angemerkt wurde, spart der CLT normalerweise den Tag , wenn groß genug ist. Was "groß genug" ist, unterscheidet sich jedoch für verschiedene Klassen von Distributionen.n

(In meiner Definition) Ein Test auf Normalität richtet sich gegen eine Klasse von Alternativen, wenn er für Alternativen aus dieser Klasse, aber nicht für Alternativen aus anderen Klassen empfindlich ist. Typische Beispiele sind Tests, die auf schiefe oder kurtotische Alternativen abzielen . Die einfachsten Beispiele verwenden die Probeschiefe und die Kurtosis als Teststatistik.

Gezielte Normalitätstests sind wohl häufig Omnibus-Tests (wie den Shapiro-Wilk- und Jarque-Bera-Tests) vorzuziehen, da es häufig vorkommt, dass nur einige Arten von Nichtnormalität für ein bestimmtes Inferenzverfahren von Belang sind .

Betrachten wir als Beispiel den Student-T-Test. Angenommen, wir haben eine iid-Stichprobe aus einer Verteilung mit Schiefe und (überschüssiger) KurtosisWenn symmetrisch zu seinem Mittelwert ist, ist . Sowohl als auch sind 0 für die Normalverteilung.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

Unter Regularitätsannahmen erhalten wir für die cdf der Teststatistik folgende asymptotische Erweiterung : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

Dabei ist die PDF-Datei und die PDF- Datei der Standardnormalverteilung.Φ()ϕ()

γ erscheint zum ersten Mal im Term , während im Term . Die asymptotische Leistung von ist wesentlich empfindlicher gegenüber Abweichungen von der Normalität in Form von Schiefe als in Form von Kurtosis.n1/2κn1 T nTn

Mit Hilfe von Simulationen kann nachgewiesen werden, dass dies auch für kleine . Daher ist der Student-T-Test empfindlich gegen Schräglage, aber relativ robust gegen schwere Schwänze, und es ist vernünftig, einen Test auf Normalität zu verwenden, der auf Schräglagen-Alternativen abzielt, bevor der T-Test angewendet wird .n

Als Faustregel ( kein Naturgesetz) ist die Schlußfolgerung über Mittelwerte empfindlich gegen Schrägstellung und die Schlußfolgerung über Varianzen empfindlich gegen Kurtosis.

Die Verwendung eines gezielten Normalitätstests hat den Vorteil, dass bei "gefährlichen" Alternativen eine höhere und bei weniger "gefährlichen" Alternativen eine niedrigere Leistung erzielt wird, was bedeutet, dass wir die Normalität aufgrund von gewonnenen Abweichungen von der Normalität weniger wahrscheinlich ablehnen Beeinträchtigt nicht die Leistung unserer Inferenzprozedur. Die Nichtnormalität wird auf eine Weise quantifiziert, die für das vorliegende Problem relevant ist. Dies ist grafisch nicht immer einfach zu bewerkstelligen.

n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
Das ist eine großartige Antwort!
User603

10
Ja, dies sollte die akzeptierte, wirklich fantastische Antwort sein
jenesaisquoi

2
"Es ist üblich, dass nur einige Arten von Nicht-Normalität für ein bestimmtes Inferenzverfahren von Belang sind." - Natürlich sollte man dann einen Test anwenden, der auf diese Art von Nichtnormalität abzielt. Aber die Tatsache, dass man einen Normalitätstest verwendet, impliziert, dass er sich um alle Aspekte der Normalität kümmert . Die Frage ist: Ist ein Normalitätstest in diesem Fall eine gute Option?
RBM

Der Test, ob die Annahmen für bestimmte Tests ausreichen, wird immer häufiger, was zum Glück einige Rätselraten beseitigt.
Carl

1
@Carl: Können Sie dazu einige Referenzen / Beispiele hinzufügen?
kjetil b halvorsen

58

IMHO-Normalitätstests sind aus folgenden Gründen absolut nutzlos:

  1. Bei kleinen Stichproben besteht eine gute Chance, dass die tatsächliche Verteilung der Population im Wesentlichen nicht normal ist, aber der Normalitätstest ist nicht leistungsfähig, um sie zu erfassen.

  2. Bei großen Stichproben sind Dinge wie der T-Test und die ANOVA ziemlich robust gegenüber Nicht-Normalität.

  3. Die ganze Idee einer normalverteilten Population ist jedenfalls nur eine bequeme mathematische Annäherung. Keine der Größen, mit denen typischerweise statistisch umgegangen wird, könnte plausibel Verteilungen mit einer Unterstützung aller reellen Zahlen haben. Zum Beispiel können Menschen keine negative Größe haben. Etwas kann keine negative Masse oder mehr Masse haben, als es im Universum gibt. Daher ist es sicher zu sagen , dass nichts ist genau normalerweise in der realen Welt verteilt.


2
Die elektrische Potentialdifferenz ist ein Beispiel für eine reale Größe, die negativ sein kann.
Nico

16
@nico: Sicher, es kann negativ sein, aber es gibt eine endliche Grenze, weil es im Universum nur so viele Protonen und Elektronen gibt. In der Praxis ist das natürlich irrelevant, aber das ist mein Punkt. Nichts ist genau normal verteilt (das Modell ist falsch), aber es gibt viele Dinge, die nah genug sind (das Modell ist nützlich). Grundsätzlich haben Sie bereits gewusst, dass das Modell falsch ist, und das Zurückweisen oder Nicht-Zurückweisen der Null gibt im Wesentlichen keine Auskunft darüber, ob es dennoch nützlich ist.
Dsimcha

1
@dsimcha - Ich finde, dass eine wirklich aufschlussreiche, nützliche Antwort.
Rolando2

5
t

@dsimcha "Das Modell ist falsch". Sind nicht ALLE Modelle "falsch"?
Atirag

30

Ich denke, dass ein Pre-Test auf Normalität (der informelle Bewertungen mit Grafiken beinhaltet) den Punkt verfehlt.

  1. Benutzer dieses Ansatzes gehen davon aus, dass die Normalitätsbewertung eine Potenz nahe 1,0 hat.
  2. Nichtparametrische Tests wie Wilcoxon, Spearman und Kruskal-Wallis haben bei Normalität eine Effizienz von 0,95.
  3. Im Hinblick auf 2. kann man die Verwendung eines nichtparametrischen Tests vorab festlegen, wenn man sogar die Möglichkeit in Betracht zieht, dass die Daten möglicherweise nicht aus einer Normalverteilung stammen.
  4. YY

Beachten Sie, dass die Effizienz von 0,95 asymptotisch ist : FWIW Ich vermute, dass die Effizienz für typische endliche Stichprobengrößen viel geringer ist ... (obwohl ich dies zugegebenermaßen nicht gesehen oder selbst versucht habe, es zu untersuchen)
Ben Bolker

16

Bevor Sie sich fragen, ob ein Test oder eine grobe Überprüfung auf Normalität "nützlich" ist, müssen Sie die Frage hinter der Frage beantworten: "Warum fragen Sie?"

Wenn Sie beispielsweise den Mittelwert einer Datenmenge nur auf ein Vertrauenslimit beschränken möchten , sind Abweichungen von der Normalität möglicherweise von Bedeutung, je nachdem, über wie viele Daten Sie verfügen und wie groß die Abweichungen sind. Abweichungen von der Normalität können jedoch von entscheidender Bedeutung sein, wenn Sie vorhersagen möchten, welcher Extremwert in zukünftigen Beobachtungen oder in der Population, aus der Sie eine Stichprobe gezogen haben, am höchsten sein wird.


12

Lassen Sie mich noch eine Kleinigkeit hinzufügen: Die
Durchführung eines Normalitätstests ohne Berücksichtigung des Alphafehlers erhöht Ihre allgemeine Wahrscheinlichkeit, einen Alphafehler auszuführen.

Sie werden nie vergessen, dass jeder zusätzliche Test dies tut, solange Sie nicht auf Alpha-Fehlerakkumulation kontrollieren. Ein weiterer guter Grund, die Normaltests zu verwerfen.


Ich nehme an, Sie beziehen sich auf eine Situation, in der man zuerst einen Normalitätstest durchführt und dann das Ergebnis dieses Tests verwendet, um zu entscheiden, welcher Test als nächstes durchgeführt werden soll.
Harvey Motulsky

3
Ich beziehe mich auf die allgemeine Nützlichkeit von Normalitätstests, wenn sie als Methode verwendet werden, um festzustellen, ob die Verwendung einer bestimmten Methode angemessen ist oder nicht. Wenn Sie sie in diesen Fällen anwenden, ist es im Hinblick auf die Wahrscheinlichkeit eines Alpha-Fehlers besser, einen stabileren Test durchzuführen, um die Akkumulation von Alpha-Fehlern zu vermeiden.
Henrik

4
H0

3
Eine andere Möglichkeit, mit der ein Normalitätstest die Typ-I-Fehler erhöhen könnte, besteht darin, von der "Gesamtwahrscheinlichkeit eines Alpha-Fehlers" zu sprechen. Der Test selbst hat eine Fehlerquote, so insgesamt , unsere Wahrscheinlichkeit einen Fehler erhöht zu begehen. Hervorhebung einer kleinen Sache, nehme ich an ...
Nick Stauner

2
@NickStauner Genau das wollte ich vermitteln. Vielen Dank, dass Sie diesen Punkt noch deutlicher gemacht haben.
Henrik

11

Die Antworten hier haben bereits einige wichtige Punkte angesprochen. Um es kurz zusammenzufassen:

  • Es gibt keinen konsistenten Test, der feststellen kann, ob ein Datensatz tatsächlich einer Verteilung folgt oder nicht.
  • Tests sind kein Ersatz für die visuelle Überprüfung der Daten und Modelle, um eine hohe Hebelwirkung zu ermitteln, Beobachtungen mit hohem Einfluss zu beobachten und ihre Auswirkungen auf Modelle zu kommentieren.
  • Die Annahmen für viele Regressionsroutinen werden häufig fälschlicherweise als normalverteilte "Daten" [Residuen] angeführt, und dass dies von unerfahrenen Statistikern so interpretiert wird, dass der Analyst dies in gewissem Sinne formell bewerten muss, bevor er mit den Analysen fortfährt.

Ich füge eine Antwort hinzu, um zunächst einen meiner persönlich am häufigsten aufgerufenen und gelesenen statistischen Artikel zu zitieren: " Die Bedeutung von Normalitätsannahmen in großen Datensätzen zur öffentlichen Gesundheit " von Lumley et. al. Es lohnt sich in vollem Umfang zu lesen. In der Zusammenfassung heißt es:

Der t-Test und die lineare Regression der kleinsten Quadrate erfordern keine Annahme der Normalverteilung in ausreichend großen Proben. Frühere Simulationsstudien haben gezeigt, dass „ausreichend groß“ häufig unter 100 liegt und selbst für unsere extrem nicht normalen medizinischen Kostendaten weniger als 500 beträgt. Dies bedeutet, dass in der öffentlichen Gesundheitsforschung, wo die Stichproben häufig wesentlich größer sind, die t -test und das lineare Modell sind nützliche Standardwerkzeuge zum Analysieren von Unterschieden und Trends in vielen Datentypen, nicht nur in Daten mit Normalverteilungen. Formale statistische Tests auf Normalität sind besonders unerwünscht, da sie in den kleinen Stichproben, bei denen es auf die Verteilung ankommt, eine geringe Leistung und in den großen Stichproben, bei denen die Verteilung unwichtig ist, nur eine hohe Leistung aufweisen.

Obwohl die Eigenschaften der linearen Regression für große Stichproben gut bekannt sind, wurde nur wenig über die Stichprobengrößen geforscht, die für die Annahme der Normalität erforderlich sind, um unwichtig zu sein. Insbesondere ist nicht klar, wie die erforderliche Stichprobengröße von der Anzahl der Prädiktoren im Modell abhängt.

Der Fokus auf Normalverteilungen kann von den tatsächlichen Annahmen dieser Methoden abweichen. Die lineare Regression geht davon aus, dass die Varianz der Ergebnisvariablen annähernd konstant ist. Die primäre Einschränkung beider Methoden besteht jedoch darin, dass sie davon ausgehen, dass es ausreicht, Änderungen im Mittelwert der Ergebnisvariablen zu untersuchen. Wenn eine andere Zusammenfassung der Verteilung von größerem Interesse ist, sind der t-Test und die lineare Regression möglicherweise nicht geeignet.

Zusammenfassend lässt sich sagen: Normalität ist im Allgemeinen nicht die Diskussion oder die Aufmerksamkeit wert, die sie erhält, im Gegensatz zu der Wichtigkeit, eine bestimmte wissenschaftliche Frage zu beantworten. Wenn der Wunsch besteht, mittlere Datenunterschiede zusammenzufassen, sind der t-Test und die ANOVA oder die lineare Regression in einem viel breiteren Sinne gerechtfertigt. Tests, die auf diesen Modellen basieren, haben weiterhin das richtige Alpha-Niveau, auch wenn die Verteilungsannahmen nicht erfüllt werden, obwohl die Leistung möglicherweise nachteilig beeinflusst wird.

Die Gründe, warum Normalverteilungen die Aufmerksamkeit erhalten, die sie erhalten, können klassische Gründe sein, bei denen genaue Tests basierend auf F-Verteilungen für ANOVAs und Student-T-Verteilungen für den T-Test erhalten werden konnten. Die Wahrheit ist, dass wir uns unter den vielen modernen Fortschritten der Wissenschaft im Allgemeinen mit größeren Datensätzen befassen, als sie zuvor gesammelt wurden. Wenn es sich tatsächlich um einen kleinen Datensatz handelt, kann die Begründung, dass diese Daten normal verteilt sind, nicht von diesen Daten selbst stammen: Es gibt einfach nicht genug Strom. Die Bemerkung zu anderen Forschungsergebnissen, Replikationen oder sogar zur Biologie oder Wissenschaft des Messprozesses ist meines Erachtens ein viel gerechtfertigterer Ansatz zur Erörterung eines möglichen Wahrscheinlichkeitsmodells, das den beobachteten Daten zugrunde liegt.

Aus diesem Grund geht die Entscheidung für einen rangbasierten Test völlig daneben. Ich stimme jedoch zu, dass die Verwendung robuster Varianzschätzer wie Jackknife oder Bootstrap wichtige Berechnungsalternativen darstellen, die die Durchführung von Tests bei einer Vielzahl wichtigerer Verstöße gegen die Modellspezifikation ermöglichen, wie z. B. Unabhängigkeit oder identische Verteilung dieser Fehler.


10

Früher dachte ich , dass Normalitätstests völlig nutzlos waren.

Jetzt berate ich jedoch andere Forscher. Die Beschaffung von Stichproben ist oft sehr teuer, weshalb sie beispielsweise auf n = 8 schließen möchten.

In einem solchen Fall ist es sehr schwierig, bei nichtparametrischen Tests eine statistische Signifikanz zu finden, aber t-Tests mit n = 8 reagieren empfindlich auf Abweichungen von der Normalität. Was wir also bekommen, ist, dass wir sagen können: "Nun, unter der Voraussetzung der Normalität finden wir einen statistisch signifikanten Unterschied" (keine Sorge, dies sind normalerweise Pilotstudien ...).

Dann brauchen wir eine Möglichkeit, diese Annahme zu bewerten. Ich bin auf halbem Weg im Lager, dass das Anschauen von Grundstücken ein besserer Weg ist, aber um ehrlich zu sein, kann es viel Uneinigkeit darüber geben, was sehr problematisch sein kann, wenn einer der Leute, die mit Ihnen nicht einverstanden sind, der ist Gutachter Ihres Manuskripts.

In vielerlei Hinsicht glaube ich immer noch, dass Normalitätstests viele Mängel aufweisen: Zum Beispiel sollten wir uns mehr Gedanken über den Typ-II-Fehler als über den Typ-I-Fehler machen. Aber es besteht Bedarf dafür.


Beachten Sie, dass die Argumente hier sind, dass die Tests nur in der Theorie nutzlos sind. Theoretisch können wir immer so viele Stichproben erhalten, wie wir wollen ... Sie müssen noch die Tests durchführen, um zu beweisen, dass Ihre Daten zumindest annähernd der Normalität entsprechen.
SmallChess

2
Guter Punkt. Ich denke, was Sie damit meinen, und was ich mit Sicherheit glaube, ist, dass ein Maß für die Abweichung von der Normalität wichtiger ist als ein Hypothesentest.
Cliff AB

Solange sie dann nicht auf einen nicht parametrischen Test umschalten und versuchen, die p-Werte (die durch bedingte Vortests ungültig werden) zu interpretieren, ist das vielleicht in Ordnung ?!
Björn

2
Die Leistung eines Normaltests ist bei n = 8 sehr gering; Insbesondere Abweichungen von der Normalität, die die Eigenschaften eines Tests erheblich beeinträchtigen, wenn davon ausgegangen wird, dass er bei kleinen Stichprobengrößen (entweder durch Test oder visuell) nur schwer zu erkennen ist.
Glen_b

1
@ Glen_b: Ich stimme zu; Ich denke, dieses Gefühl steht im Einklang damit, sich mehr um Fehler vom Typ II als um Fehler vom Typ I zu kümmern. Ob unsere aktuellen Tools diesen Bedarf wirklich decken, ist eine andere Frage.
Cliff AB

10

Für das, was es wert ist, habe ich einmal einen schnellen Sampler für die abgeschnittene Normalverteilung entwickelt, und das Testen der Normalität (KS) war beim Debuggen der Funktion sehr nützlich. Dieser Sampler besteht den Test mit riesigen Stichproben, aber interessanterweise hat der Zikkurat-Sampler der GSL dies nicht getan.


8

Das Argument, das Sie gaben, ist eine Meinung. Ich denke, dass es wichtig ist, Normalitätstests durchzuführen, um sicherzustellen, dass die Daten nicht stark vom Normalen abweichen. Ich verwende es manchmal, um zu entscheiden, ob ich für mein Inferenzverfahren einen parametrischen oder einen nichtparametrischen Test verwende. Ich denke, der Test kann in moderaten und großen Samples nützlich sein (wenn der zentrale Grenzwertsatz nicht ins Spiel kommt). Ich neige dazu, Wilk-Shapiro- oder Anderson-Darling-Tests zu verwenden, aber mit SAS bekomme ich sie alle und sie stimmen im Allgemeinen ziemlich gut überein. In einem anderen Sinne denke ich, dass grafische Verfahren wie QQ-Diagramme genauso gut funktionieren. Ein formaler Test hat den Vorteil, dass er objektiv ist. Bei kleinen Stichproben ist es richtig, dass diese Anpassungsgütetests praktisch keine Aussagekraft haben, und dies ist intuitiv sinnvoll, da eine kleine Stichprobe aus einer Normalverteilung zufällig eher nicht normal aussieht und dies im Test berücksichtigt wird. Auch eine hohe Schiefe und Kurtosis, die viele nicht normale Verteilungen von normalen Verteilungen unterscheidet, sind in kleinen Proben nicht leicht zu sehen.


2
Ich denke nicht, dass Sie objektiver sind als mit einem QQ-Plot. Der subjektive Teil bei den Tests ist, wann zu entscheiden ist, dass Ihre Daten nicht normal sind. Bei einer großen Stichprobe kann die Ausschussrate bei p = 0,05 sehr hoch sein.
Erik

4
Vorabprüfungen (wie hier vorgeschlagen) können die Fehlerrate des Typs I des Gesamtprozesses ungültig machen. Bei der Interpretation der Ergebnisse des ausgewählten Tests sollte berücksichtigt werden, dass ein Vortest durchgeführt wurde. Im Allgemeinen sollten Hypothesentests zum Testen der Nullhypothese, um die es eigentlich geht, aufbewahrt werden, dh, es gibt keine Assoziation zwischen Variablen. Die Nullhypothese, dass die Daten exakt normal sind, fällt nicht in diese Kategorie.
Gast

1
(+1) Hier gibt es ausgezeichnete Ratschläge. Erik, die Verwendung von "objektiv" hat mich auch überrascht, bis ich Michaels Recht erkannte: Zwei Personen, die den gleichen Test mit den gleichen Daten korrekt durchführen, erhalten immer den gleichen p-Wert, aber sie interpretieren den gleichen QQ-Plot möglicherweise unterschiedlich. Gast: Vielen Dank für den Hinweis zum Fehler Typ I. Aber warum sollten wir uns nicht um die Datenverteilung kümmern? Häufig sind das interessante und wertvolle Informationen. Ich möchte zumindest wissen, ob die Daten mit den Annahmen übereinstimmen, die meine Tests dazu machen!
whuber

1
Ich stimme überhaupt nicht zu. Beide Personen erhalten den gleichen QQ-Plot und den gleichen p-Wert. Um den p-Wert zu interpretieren, müssen Sie die Stichprobengröße und die Verstöße gegen die Normalität berücksichtigen, auf die Ihr Test besonders empfindlich reagiert. Die Entscheidung, was mit Ihrem p-Wert geschehen soll, ist also ebenso subjektiv. Vielleicht bevorzugen Sie den p-Wert, weil Sie glauben, dass die Daten einer perfekten Normalverteilung folgen könnten - ansonsten ist es nur eine Frage, wie schnell der p-Wert mit der Stichprobengröße fällt. Bei einer anständigen Stichprobengröße sieht der QQ-Plot fast gleich aus und bleibt bei mehr Stichproben stabil.
Erik

1
Erik, ich stimme zu, dass Testergebnisse und Grafiken einer Interpretation bedürfen. Aber das Testergebnis ist eine Zahl und darüber wird es keinen Streit geben. Der QQ-Plot lässt jedoch mehrere Beschreibungen zu. Obwohl jeder objektiv korrekt sein mag, ist die Wahl, worauf zu achten ist, ... eine Wahl. Das ist, was "subjektiv" bedeutet: Das Ergebnis hängt vom Analytiker ab, nicht nur vom Verfahren selbst. Dies ist der Grund, warum zum Beispiel bei Einstellungen, die so unterschiedlich sind wie Kontrollkarten und behördliche Vorschriften, bei denen "Objektivität" wichtig ist, Kriterien auf numerischen Tests und niemals auf grafischen Ergebnissen basieren .
whuber

7

Ich denke, ein Maximum-Entropie-Ansatz könnte hier nützlich sein. Wir können eine Normalverteilung zuweisen, weil wir glauben, dass die Daten "normal verteilt" sind (was auch immer das bedeutet) oder weil wir nur Abweichungen von ungefähr derselben Größe erwarten. Da die Normalverteilung nur über zwei ausreichende Statistiken verfügt, ist sie auch unempfindlich gegenüber Änderungen in den Daten, die diese Größen nicht verändern. In gewissem Sinne kann man sich eine Normalverteilung als "Durchschnitt" über alle möglichen Verteilungen mit demselben ersten und zweiten Moment vorstellen. Dies ist einer der Gründe, warum die kleinsten Quadrate genauso gut funktionieren sollten wie sie.


Schöne Überbrückung von Konzepten. Ich stimme auch zu, dass es in Fällen, in denen eine solche Verteilung von Bedeutung ist, weitaus aufschlussreicher ist, darüber nachzudenken, wie die Daten generiert werden. Dieses Prinzip wenden wir bei der Anpassung gemischter Modelle an. Konzentrationen oder Verhältnisse sind dagegen immer verzerrt. Ich könnte hinzufügen, dass Sie mit "das Normale ... ist unempfindlich gegenüber Änderungen" eine Invariante gegenüber Änderungen in Form / Maßstab meinen.
AdamO

7

Ich würde nicht sagen, dass es nutzlos ist, aber es hängt wirklich von der Anwendung ab. Beachten Sie, dass Sie nie wirklich wissen, von welcher Distribution die Daten stammen, und dass Sie nur einen kleinen Teil der Erkenntnisse haben. Ihr Stichprobenmittelwert ist in der Stichprobe immer endlich, aber der Mittelwert kann für einige Arten von Wahrscheinlichkeitsdichtefunktionen undefiniert oder unendlich sein. Betrachten wir die drei Arten von Levy-Stable-Verteilungen: Normalverteilung, Levy-Verteilung und Cauchy-Verteilung. Die meisten Ihrer Proben haben nicht viele Beobachtungen am Schwanz (dh außerhalb des Probenmittelwerts). Empirisch ist es also sehr schwer, zwischen den drei zu unterscheiden, so dass sich der Cauchy (undefinierter Mittelwert) und der Levy (unendlicher Mittelwert) leicht als Normalverteilung tarnen könnten.


1
"... empirisch ist es sehr schwer ..." scheint eher gegen als für Verteilungstests zu sprechen . Dies ist seltsam in einem Absatz zu lesen, dessen Einleitung darauf hindeutet, dass es tatsächlich Verwendungsmöglichkeiten für Verteilungstests gibt. Was willst du denn hier wirklich sagen?
whuber

3
Ich bin dagegen, aber ich möchte auch vorsichtig sein, als nur zu sagen, dass es nutzlos ist, da ich nicht alle möglichen Szenarien kenne. Es gibt viele Tests, die von der Normalitätsannahme abhängen. Zu sagen, dass Normalitätstests nutzlos sind, entkräftet im Wesentlichen alle statistischen Tests, von denen Sie behaupten, dass Sie nicht sicher sind, dass Sie das Richtige tun. In diesem Fall sollten Sie dies nicht tun, und Sie sollten diesen großen Statistikabschnitt nicht durchführen.
Kolonel

Danke. Die Bemerkungen in diesem Kommentar scheinen sich besser auf die Frage zu konzentrieren als Ihre ursprüngliche Antwort! Sie könnten in Betracht ziehen, Ihre Antwort irgendwann zu aktualisieren, um Ihre Meinungen und Ratschläge deutlicher zu machen.
Whuber

@whuber Kein Problem. Kannst du eine Bearbeitung empfehlen?
Kolonel

Sie können mit der Kombination der beiden Posts beginnen - der Antwort und Ihrem Kommentar - und dann überlegen, ob Sie eventuell tangentiales Material aussortieren (oder in einen Anhang verlagern oder klären) möchten. Beispielsweise hat der Verweis auf undefinierte Mittel noch keine klare Bedeutung für die Frage und bleibt daher etwas rätselhaft.
Whuber

7

Ich glaube, die ersten beiden Fragen wurden gründlich beantwortet, aber ich glaube nicht, dass Frage 3 angesprochen wurde. Viele Tests vergleichen die empirische Verteilung mit einer bekannten hypothetischen Verteilung. Der kritische Wert für den Kolmogorov-Smirnov-Test basiert darauf, dass F vollständig spezifiziert ist. Es kann modifiziert werden, um anhand einer Parameterverteilung mit geschätzten Parametern zu testen. Wenn also unschärfer bedeutet, mehr als zwei Parameter zu schätzen, lautet die Antwort auf die Frage ja. Diese Tests können auf 3 oder mehr Parameterfamilien angewendet werden. Einige Tests sind für eine bessere Leistung ausgelegt, wenn sie mit einer bestimmten Verteilungsfamilie getestet werden. Beispielsweise haben beim Testen der Normalität der Anderson-Darling- oder der Shapiro-Wilk-Test eine größere Leistung als KS oder das Chi-Quadrat, wenn die hypothetische Nullverteilung normal ist.


5

Tests, bei denen "etwas", das für die Analyse wichtig ist, durch hohe p-Werte gestützt wird, sind meines Erachtens falsch. Wie andere betonten, ist für große Datensätze ein p-Wert unter 0,05 gewährleistet. Der Test "belohnt" also im Wesentlichen kleine und unscharfe Datensätze und "belohnt" mangels Beweisen. So etwas wie qq-Diagramme sind viel nützlicher. Der Wunsch nach harten Zahlen, um solche Dinge immer zu entscheiden (ja / nein normal / nicht normal), lässt vermissen, dass das Modellieren teilweise eine Kunst ist und wie Hypothesen tatsächlich unterstützt werden.


2
Es bleibt, dass eine große Probe, die fast normal ist, einen niedrigen p-Wert hat, während eine kleinere Probe, die nicht annähernd normal ist, oft nicht. Ich halte große p-Werte nicht für sinnvoll. Auch hier belohnen sie mangelnde Beweise. Ich kann eine Stichprobe mit mehreren Millionen Datenpunkten haben, und sie lehnt fast immer die Normalitätsannahme unter diesen Tests ab, während eine kleinere Stichprobe dies nicht tut. Deshalb finde ich sie nicht nützlich. Wenn mein Denken fehlerhaft ist, zeigen Sie es bitte mit einer deduktiven Begründung zu diesem Punkt.
wvguy8258

Dies beantwortet die Frage überhaupt nicht.
SmallChess

-2

Eine gute Anwendung des Normalitätstests, die meines Erachtens nicht erwähnt wurde, ist die Feststellung, ob die Verwendung von Z-Scores in Ordnung ist. Angenommen, Sie haben eine Zufallsstichprobe aus einer Population ausgewählt, und Sie möchten die Wahrscheinlichkeit ermitteln, mit der Sie eine zufällige Person aus der Population auswählen und einen Wert von 80 oder höher erhalten. Dies ist nur möglich, wenn die Verteilung normal ist, da bei Verwendung von Z-Scores davon ausgegangen wird, dass die Populationsverteilung normal ist.

Aber dann sehe ich wohl auch, dass dies streitig ist ...


Wert von was? Mittelwert, Summe, Varianz, eine individuelle Beobachtung? Nur der letzte beruht auf der angenommenen Normalität der Verteilung.
Whuber

Ich meinte individuell
Hotaka

2
Vielen Dank. Ihre Antwort bleibt jedoch so vage, dass es schwierig ist zu sagen, auf welche Verfahren Sie sich beziehen, und unmöglich zu beurteilen, ob Ihre Schlussfolgerungen gültig sind.
Whuber

2
Das Problem bei dieser Verwendung ist dasselbe wie bei anderen Verwendungen: Der Test ist abhängig von der Stichprobengröße und daher im Wesentlichen nutzlos. Es sagt Ihnen nicht, ob Sie Z-Scores verwenden können.
Peter Flom
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.