"Umgekehrt" Shapiro-Wilk


11

Der Sharipo-Wilk-Test testet laut Wikipedia die Nullhypothese ( ) "Die Population ist normal verteilt".H0

Ich suche einen ähnlichen Normalitätstest mit "Die Bevölkerung ist nicht normal verteilt".H0

Mit einem solchen Test möchte ich einen Wert berechnen , um H 0 auf dem Signifikanzniveau α abzulehnen, wenn p < α ist ; Beweis, dass meine Bevölkerung normal verteilt ist.pH0αp<α

Bitte beachten Sie, dass die Verwendung des Sharipo-Wilk-Tests und das Akzeptieren von wenn p > α ist, ein falscher Ansatz istH0p>α da dies wörtlich bedeutet: "Wir haben nicht genügend Beweise, um zu beweisen, dass H0 nicht gilt".

Verwandte Threads - Bedeutung von Wertp , ist Normalitätstest nutzlos? , aber ich kann keine Lösung für mein Problem sehen.

Die Fragen: Welchen Test soll ich verwenden? Ist es in R implementiert?


6
Eine Nullhypothese von "nicht normal verteilt" ist nicht verwendbar. Dieser Raum würde alle Verteilungen enthalten, die willkürlich nahe an Normalverteilungen liegen, aber nicht ganz. Sie geben mir einen endlichen Datensatz. Ich wähle die empirische Verteilung aus, die nicht normal ist und daher zum Nullraum gehört. Kann nicht ablehnen.
A. Webb

5
Diese Frage, die mit Ihrer vorhergehenden identisch ist, fragt nach dem Unmöglichen. Eine richtige Antwort würde erklären, wie statistische Hypothesentests funktionieren. Deshalb habe ich Sie in einem Kommentar zu Ihrer anderen Frage auf stats.stackexchange.com/questions/31 hingewiesen .
whuber

5
Während eine Nullhypothese "nicht normalverteilt" unmöglich ist, erscheint eine Nullhypothese "mit absoluten Werten der normalen Anpassungsgüte-Statistik, die mindestens so unterschiedlich ist wie ", im Sinne eines Äquivalenztests, vernünftig. Mit anderen Worten, man sollte in der Lage sein, gegen eine Null von "nicht normal um mindestens so viel " zu testen . @gung hat genau dies in seiner Antwort vorgeschlagen. ε
Alexis

Antworten:


10

Es gibt nicht so etwas wie ein Test , dass Ihre Daten sind normalverteilt sind . Es gibt nur Tests, bei denen Ihre Daten nicht normal verteilt sind. So gibt es Tests wie den Shapiro-Wilk, bei denen (es gibt viele andere), aber keine Tests, bei denen die Null lautet, dass die Bevölkerung nicht normal ist, und die alternative Hypothese lautet, dass die Bevölkerung normal ist. H0:normal

Alles, was Sie tun können, ist herauszufinden, welche Art von Abweichung von der Normalität Sie interessiert (z. B. Schiefe) und wie groß diese Abweichung sein müsste, bevor sie Sie stört. Dann können Sie testen, ob die Abweichung von der perfekten Normalität in Ihren Daten geringer als die kritische Menge war. Für weitere Informationen zur allgemeinen Idee könnte es hilfreich sein, meine Antwort hier zu lesen: Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?


5

Ich möchte einen p-Wert berechnen, um H0 auf dem Signifikanzniveau α abzulehnen, wenn p <α ist; Beweis, dass meine Bevölkerung normal verteilt ist.

Die Normalverteilung entsteht, wenn die Daten durch eine Reihe von additiven iid-Ereignissen generiert werden (siehe das Quincunx-Bild unten). Das bedeutet keine Rückmeldungen und keine Korrelationen. Klingt das nach dem Prozess, der Ihre Daten führt? Wenn nicht, ist es wahrscheinlich nicht normal.

Es besteht die Möglichkeit, dass in Ihrem Fall ein Prozess auftritt. Am ehesten können Sie "beweisen", dass Sie genügend Daten sammeln, um andere Verteilungen auszuschließen, die von Personen erstellt werden können (was wahrscheinlich nicht praktikabel ist). Eine andere Möglichkeit besteht darin, die Normalverteilung aus einer Theorie zusammen mit einigen anderen Vorhersagen abzuleiten. Wenn die Daten mit allen übereinstimmen und niemand eine andere Erklärung finden kann, wäre dies ein guter Beweis für die Normalverteilung.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Wenn Sie nun keine bestimmte Verteilung von vornherein erwarten, kann es dennoch sinnvoll sein, die Normalverteilung zu verwenden, um die Daten zusammenzufassen. Beachten Sie jedoch, dass dies im Wesentlichen eine Entscheidung aus Unwissenheit ist ( https://en.wikipedia.org/wiki/). Prinzip der maximalen Entropie ). In diesem Fall möchten Sie nicht wissen, ob die Bevölkerung normal verteilt ist, sondern ob die Normalverteilung eine vernünftige Annäherung für Ihren nächsten Schritt darstellt.

In diesem Fall sollten Sie Ihre Daten (oder generierte Daten, die ähnlich sind) zusammen mit einer Beschreibung dessen, was Sie damit vorhaben, bereitstellen und dann fragen: "Inwiefern kann mich die Annahme der Normalität in diesem Fall irreführen?"


Ich weiß tatsächlich, dass die Daten normal sind (unabhängige Messung auf unabhängigen Computern), aber ich muss einige Annahmen für meine These treffen. Vielen Dank für die Klarstellung und das Beispiel :)
Petrbel

1
Übrigens hat Krieger die Verwendung von Galtons Quincunx in Krieger, N. (2012) reizend kritisiert . Wer und was ist eine "Bevölkerung"? historische Debatten, aktuelle Kontroversen und Implikationen für das Verständnis der „Gesundheit der Bevölkerung“ und die Beseitigung gesundheitlicher Ungleichheiten. The Milbank Quarterly , 90 (4): 634–681.
Alexis

@petrbel Diese Situation unterscheidet sich geringfügig von der oben beschriebenen. Sie können einen Quincunx erstellen, bei dem jede Beobachtung iid ist, der Prozess, der die Daten generiert, jedoch nicht. Ein logarithmisches Beispiel finden Sie hier: LIMPERT et al. Log-Normalverteilungen über die Wissenschaften: Schlüssel und Hinweise. Mai 2001 / Vol. 51 Nr. 5. BioScience.
Livid

1
@Alexis Ich sehe, dass Krieger (2012) die Figur von Limpert et al. (2001) und macht den von Petrbel übersehenen Punkt deutlich: "Eine Änderung der Struktur kann die Ergebniswahrscheinlichkeiten ändern, selbst für identische Objekte, wodurch unterschiedliche Bevölkerungsverteilungen erzeugt werden."
Livid

2

Sie werden niemals in der Lage sein, eine Normalitätsannahme in Ihren Daten zu "beweisen". Bieten Sie nur Beweise dafür als Annahme an. Der Shapiro-Wilk-Test ist eine Möglichkeit, dies zu tun, und wird ständig verwendet, um die Normalitätsannahme zu rechtfertigen. Der Grund dafür ist, dass Sie zunächst Normalität annehmen. Sie fragen dann, deuten meine Daten darauf hin, dass ich eine dumme Annahme mache? Also testen Sie es mit Shapiro-Wilk. Wenn Sie die Nullhypothese nicht ablehnen, deuten die Daten nicht darauf hin, dass Sie eine dumme Annahme machen.

Beachten Sie, dass Menschen diese ähnliche Logik in der Praxis ständig anwenden - nicht nur im Rahmen des Shapiro-Wilk-Tests. Sie wollen lineare Regression verwenden, schauen Sie sich aY.,X.Streudiagramm und sehen, ob lineare Regression eine dumme Idee ist. Oder sie nehmen Heteroskedastizität an und zeichnen Fehlerbegriffe auf, um zu sehen, ob dies eine dumme Idee ist.


Diese Praxis, die Sie beschreiben, ist genau der falsche Ansatz, den Petrbel erwähnt hat. Die Tests sind normalerweise konsistent. Je größer die Stichprobe ist, desto größer ist die Wahrscheinlichkeit, die Normalitätsannahme als dumme Idee zu deklarieren. Dies ist selbst albern, da bei größeren Stichproben die Normalitätsannahme aufgrund der asymptotischen Robustheit der meisten Verfahren weniger kritisch ist.
Horst Grünbusch

@ HorstGrünbusch Sind Sie nicht der Meinung, dass der Shapiro-Wilk-Test eine gültige Methode ist, um die Annahme zu testen, dass die Daten normal sind?
TrynnaDoStat

Wenn Sie zustimmen, dass dies ein gültiger Ansatz ist, bin ich mir nicht sicher, womit Sie in meiner Antwort nicht einverstanden sind.
TrynnaDoStat

Siehe die Argumente hier: stats.stackexchange.com/questions/2492/… . Es ist auch ungültig, die Nullhypothese zu testen, dass zwei Proben dieselbe Varianz haben, und den Satterthwaite-Test nur zu verwenden, wenn die Varianzen signifikant unterschiedlich sind, und ansonsten den t-Test für homoskedastische Proben. Simulieren Sie diese zusammengesetzte Prozedur einfach selbst: Sie können Typ-I-Fehlerraten von bis zu erhalten2α.
Horst Grünbusch

@ HorstGrünbusch Es scheint, dass Ihr Problem mit meiner Antwort mit der Idee des Hypothesentests im Allgemeinen zu tun hat. Insbesondere die Tatsache, dass in vielen Situationen Hypothesentests die Null mit der Wahrscheinlichkeit 1 ablehnen, wenn sich die Stichprobengröße der Unendlichkeit nähert.
TrynnaDoStat
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.