Wertebereich von Schiefe und Kurtosis für die Normalverteilung


11

Ich möchte wissen, in welchem ​​Bereich der Werte für Schiefe und Kurtosis die Daten als normal verteilt gelten.

Ich habe viele Argumente gelesen und meistens habe ich gemischte Antworten bekommen. Einige sagen, dass für die Schiefe und ( - 2 , 2 ) für die Kurtosis ein akzeptabler Bereich für die Normalverteilung ist. Einige sagen ( - 1,96 , 1,96 ) für Schiefe ist ein akzeptabler Bereich. Ich habe hier eine ausführliche Diskussion gefunden: Was ist der akzeptable Bereich von Schiefe und Kurtosis für die normale Verteilung von Daten zu diesem Thema ? Aber ich konnte keine entscheidende Aussage finden.(1,1)(2,2)(1.96,1.96)

Was ist die Grundlage für die Entscheidung eines solchen Intervalls? Ist das eine subjektive Wahl? Oder gibt es eine mathematische Erklärung für diese Intervalle?


3
Was oder wer definiert "akzeptabel"?
Glen_b -Reinstate Monica

Das ist eine gute Frage. Ich habe keine klare Antwort darauf.
Dark_Knight

Habe ich Recht, wenn ich denke, dass das Hinterlegen Ihrer Frage eine implizite Methode ist, etwa wie folgt: "Bevor Sie dieses Modell abschätzen / diesen Test durchführen, überprüfen Sie die Schiefe und Kurtosis der Probe. Wenn beide innerhalb eines vorgegebenen Bereichs liegen, verwenden Sie eine normales theoretisches Verfahren, sonst etwas anderes verwenden. " ...?
Glen_b -State Monica

Wenn ja, auf welchen Verfahren mit normalen Annahmen könnten Sie einen solchen Ansatz anwenden? Auf welche Variablen würden Sie dies überprüfen? Welche alternativen Verfahren würden Sie anwenden, wenn Sie zu dem Schluss kämen, dass sie nach einem bestimmten Kriterium nicht "akzeptabel" sind?
Glen_b -State Monica

Außerdem - und dies kann für den Kontext wichtig sein, insbesondere in Fällen, in denen einige Gründe für die Auswahl einiger Grenzen angeführt werden - können Sie Anführungszeichen einschließen, aus denen Bereiche wie diese stammen, die Sie erhalten können (insbesondere, wenn die vorgeschlagenen Bereiche recht sind anders)? Eine Sache, die aus einem solchen Kontext heraus nützlich wäre - für welche Situationen verwenden sie solche Dinge?
Glen_b -State Monica

Antworten:


6

Der ursprüngliche Beitrag enthält einige wichtige Punkte: (1) Es können niemals "Daten" normal verteilt werden. Daten sind notwendigerweise diskret. Die gültige Frage lautet: "Ist der Prozess, der die Daten erzeugt hat, ein normalverteilter Prozess?" Aber (2) die Antwort auf die zweite Frage lautet immer "Nein", unabhängig davon, was Ihnen ein statistischer Test oder eine andere auf Daten basierende Bewertung gibt. Normalverteilte Prozesse erzeugen Daten mit unendlicher Kontinuität, perfekter Symmetrie und genau festgelegten Wahrscheinlichkeiten innerhalb von Standardabweichungsbereichen (z. B. 68-95-99.7), von denen keine jemals genau für Prozesse gilt, die zu Daten führen, die wir mit was auch immer messen können Messgerät, das wir Menschen benutzen können.

Sie können also niemals Daten als normalverteilt betrachten, und Sie können niemals den Prozess, der die Daten erzeugt hat, als einen genau normalverteilten Prozess betrachten. Wie Glen_b angedeutet hat, spielt es jedoch möglicherweise keine große Rolle, je nachdem, was Sie mit den Daten versuchen.

Mithilfe von Skewness- und Kurtosis-Statistiken können Sie bestimmte Arten von Abweichungen von der Normalität Ihres Datengenerierungsprozesses beurteilen. Es handelt sich jedoch um sehr variable Statistiken. Die oben angegebenen Standardfehler sind nicht nützlich, da sie nur unter Normalität gültig sind, was bedeutet, dass sie nur als Test für Normalität nützlich sind, eine im Wesentlichen nutzlose Übung. Es wäre besser, den Bootstrap zu verwenden, um Se's zu finden, obwohl große Samples benötigt würden, um genaue Se's zu erhalten.

Außerdem ist Kurtosis im Gegensatz zum obigen Beitrag sehr leicht zu interpretieren. Dies ist der Durchschnitt (oder der erwartete Wert) der Z-Werte, jeweils mit der vierten Potenz. Groß | Z | Werte sind Ausreißer und tragen stark zur Kurtosis bei. Klein | Z | Werte, bei denen der "Peak" der Verteilung ist, ergeben Z ^ 4 -Werte, die winzig sind und im Wesentlichen nichts zur Kurtosis beitragen. Ich habe in meinem Artikel https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ bewiesen, dass die Kurtosis durch den Durchschnitt der Z ^ 4 * I (| Z |> 1) -Werte sehr gut angenähert wird. Daher misst Kurtosis die Neigung des Datenerzeugungsprozesses, Ausreißer zu erzeugen.


Was genau verstehen Sie unter "normalverteilten Prozessen"? Ich verstehe, was Sie über Diskretion und Kontinuität von Zufallsvariablen sagen, aber was ist mit der Annahme bezüglich der Normalverteilung, die unter Verwendung des zentralen Grenzwertsatzes gemacht werden kann?
Dark_Knight

CLT ist hier nicht relevant - wir sprechen von der Verteilung, die einzelne Datenwerte erzeugt, keine Durchschnittswerte. Ein "normalverteilter Prozess" ist ein Prozess, der normalverteilte Zufallsvariablen erzeugt. Ein perfekter normaler Computer-Zufallszahlengenerator wäre ein Beispiel (so etwas gibt es nicht, aber sie sind verdammt gut in der Software, die wir verwenden.)
Peter Westfall

Da kein Prozess, der Daten erzeugt, die wir analysieren können, ein normaler Prozess ist, folgt auch, dass die Verteilung der durch einen solchen Prozess erzeugten Durchschnittswerte unabhängig von der Stichprobengröße niemals genau normal ist. Aber ja, Verteilungen solcher Durchschnittswerte könnten gemäß CLT nahe an Normalverteilungen liegen. Die Nähe solcher Verteilungen zur Normalität hängt von (i) der Stichprobengröße und (ii) dem Grad der Nichtnormalität des Datenerzeugungsprozesses ab, der die einzelnen Datenwerte erzeugt.
Peter Westfall

4
Hallo Peter - kannst du Referenzen wie "oben" vermeiden, da sich die Sortierreihenfolge ändert? Was für Sie oben steht, ist für die nächste Person möglicherweise nicht oben. Wenn Sie Gungs Post oder meinen Post meinen (noch in Bearbeitung, da ich an einer Reihe von Aspekten arbeite), können Sie sie einfach anhand ihres Autors identifizieren.
Glen_b -Reinstate Monica

Sie scheinen oben zu behaupten, dass eine höhere Kurtosis eine höhere Tendenz zur Erzeugung von Ausreißern impliziert. Sofern Sie Ausreißer nicht tautolog definieren (dh um die Behauptung wahr zu machen), ist dies keine Aussage, die im allgemeinen Fall wahr ist. Zum Beispiel ist es ziemlich einfach, Verteilungspaare zu konstruieren, bei denen das mit einem schwereren Schwanz eine geringere Kurtosis aufweist.
Glen_b -Reinstate Monica

5

Was Sie hier zu verlangen scheinen, ist ein Standardfehler für die Schiefe und Kurtosis einer Stichprobe aus einer normalen Population. Beachten Sie, dass es verschiedene Möglichkeiten gibt, Dinge wie Schiefe oder Fettschwanz (Kurtosis) abzuschätzen , die sich offensichtlich auf den Standardfehler auswirken. Die häufigsten Maßnahmen, an die Menschen denken, sind eher als 3. und 4. standardisierte Momente bekannt.

[1,)3kurtÖsichs- -3[- -2,)skewness2+124/N0

Für das, was es wert ist, sind die Standardfehler:

S.E.(skewness)=6N.(N.- -1)(N.- -2)(N.+1)(N.+3)S.E.(kurtÖsichs)=2×S.E.(skewness)N.2- -1(N.- -3)(N.+5)

0

  • <|.5|
  • [|.5|,|1|)
  • |1|

Eine gute Einführung in Schiefe und Kurtosis finden Sie hier .


3

[Im Folgenden gehe ich davon aus, dass Sie etwas vorschlagen wie "Überprüfen Sie die Probenschiefe und die Kurtosis, wenn beide innerhalb eines vorgegebenen Bereichs liegen, verwenden Sie ein normales theoretisches Verfahren, andernfalls verwenden Sie etwas anderes".]

Dies hat eine Reihe von Aspekten, von denen wir nur Platz für eine Handvoll Überlegungen haben. Ich werde zunächst auflisten, was meiner Meinung nach die wichtigsten Themen sein sollten, bevor ich ein solches Kriterium verwende. Ich werde versuchen, später zurückzukommen und ein wenig über jeden Artikel zu schreiben:

Zu berücksichtigende Probleme

  1. Wie schlimm wären verschiedene Arten von Nicht-Normalität für das, was wir tun?

  2. Wie schwierig ist es, diese Abweichungen anhand von Bereichen für Probenschiefe und Kurtosis zu erfassen?

    Eine Sache, der ich im Vorschlag zustimme - es geht um ein Paar von Maßnahmen, die sich eher auf die Effektgröße ( wie viel Abweichung von der Normalität) als auf die Bedeutung beziehen . In diesem Sinne wird es näher kommen, etwas Nützliches anzusprechen, als ein formaler Hypothesentest, der dazu neigt, selbst geringfügige Abweichungen bei großen Stichprobengrößen abzulehnen, und gleichzeitig den falschen Trost bietet, nicht größere (und wirkungsvollere) Abweichungen bei nicht abzulehnen kleine Stichprobengrößen. (Hypothesentests sprechen hier die falsche Frage an.)

    Natürlich ist es bei kleinen Stichprobengrößen immer noch problematisch in dem Sinne, dass die Maßnahmen sehr "verrauscht" sind, so dass wir immer noch in die Irre geführt werden können (ein Konfidenzintervall hilft uns zu erkennen, wie schlimm es tatsächlich sein könnte).

    Es sagt uns nicht, wie eine Abweichung in der Schiefe oder Kurtosis mit Problemen mit dem zusammenhängt, wofür wir Normalität wollen - und verschiedene Verfahren können in ihren Reaktionen auf Nicht-Normalität sehr unterschiedlich sein.

    Es hilft uns nicht, wenn unsere Abweichung von der Normalität von einer Art ist, für die Schiefe und Kurtosis blind sind.

  3. Wenn Sie diese Beispielstatistik als Grundlage für die Entscheidung zwischen zwei Verfahren verwenden, wie wirkt sich dies auf die Eigenschaften der resultierenden Inferenz aus (z. B. für einen Hypothesentest, wie sehen Ihr Signifikanzniveau und Ihre Leistung dabei aus?).

  4. Es gibt unendlich viele Verteilungen, die genau die gleiche Schiefe und Kurtosis wie die Normalverteilung aufweisen, aber eindeutig nicht normal sind. Sie müssen nicht einmal symmetrisch sein! Wie wirkt sich die Existenz solcher Dinge auf die Anwendung solcher Verfahren aus? Ist das Unternehmen von Anfang an zum Scheitern verurteilt?

  5. Wie stark variieren die Probenschiefe und die Kurtosis in Proben, die aus Normalverteilungen stammen? (Welchen Anteil an normalen Proben würden wir nach einer Regel wegwerfen?)

    [Zum Teil hängt dieses Problem mit einigen Themen zusammen, die Gung in seiner Antwort bespricht.]

  6. Könnte es stattdessen etwas Besseres geben?

Wenn wir schließlich nach Prüfung all dieser Fragen beschließen, diesen Ansatz anzuwenden, kommen wir zu Überlegungen, die sich aus Ihrer Frage ergeben:

  1. Was sind gute Grenzen für Schiefe und Kurtosis bei verschiedenen Verfahren? Über welche Variablen müssen wir uns in welchen Verfahren Gedanken machen?

    (Wenn wir z. B. eine Regression durchführen, beachten Sie, dass es falsch ist, auf diese Weise mit IV und sogar mit dem rohen DV umzugehen. Es wird davon ausgegangen, dass keines davon aus einer gemeinsamen Normalverteilung stammt.)


Ich werde zurückkommen und einige Gedanken hinzufügen, aber alle Kommentare / Fragen, die Sie in der Zwischenzeit haben, könnten nützlich sein.


Tatsächlich hatte ich in meiner Prüfung eine Frage zu bestimmten Werten für Schiefe und Kurtosis. Was kann über die Normalität der Verteilung gesagt werden? Ich bin mir nicht besonders sicher, ob es eine gute Idee ist, auf der Grundlage dieser beiden Zahlen eine Schlussfolgerung zu ziehen, da ich mehrere Fälle gesehen habe, in denen die Werte für Schiefe und Kurtosis etwas herum liegen0und trotzdem ist die Verteilung ganz anders als normal.
Dark_Knight

Und ich verstehe auch nicht, warum wir einen bestimmten Wertebereich für Schiefe und Kurtosis benötigen, um einen Normalitätstest durchzuführen?
Dark_Knight
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.