Ist die Standardabweichung völlig falsch? Wie können Sie den Standard für Höhen, Zählungen usw. (positive Zahlen) berechnen?


13

Angenommen, ich berechne Höhen (in cm) und die Zahlen müssen höher als Null sein.

Hier ist die Musterliste:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

In diesem Beispiel müssen gemäß der Normalverteilung 99,7% der Werte zwischen dem ± 3-fachen der Standardabweichung vom Mittelwert liegen. Selbst die doppelte Standardabweichung wird jedoch negativ:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Meine Zahlen müssen jedoch positiv sein. Sie müssen also über 0 liegen. Ich kann negative Zahlen ignorieren, bezweifle jedoch, dass dies der richtige Weg ist, um Wahrscheinlichkeiten mit Standardabweichung zu berechnen.

Kann mir jemand helfen zu verstehen, ob ich das richtig benutze? Oder muss ich eine andere Methode wählen?

Um ehrlich zu sein, Mathe ist Mathe. Es ist egal, ob es sich um eine Normalverteilung handelt oder nicht. Wenn es mit vorzeichenlosen Zahlen funktioniert, sollte es auch mit positiven Zahlen funktionieren! Liege ich falsch?

EDIT1: Histogramm hinzugefügt

Der Klarheit halber habe ich das Histogramm meiner Echtdaten hinzugefügt Bildbeschreibung hier eingeben

EDIT2: Einige Werte

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
Ich denke, dass das Missverständnis hier darin besteht, dass eine Verteilung, die nur positive Zahlen enthalten kann, nicht normal ist, sodass die von Ihnen angegebene 99,7% -Regel nicht gilt. Zweitens können Sie anhand der (Beispiel-) Standardabweichungsformel erkennen, dass für keinen der ursprünglichen Werte eine Bedingung positiv ist. Warum sollte es also falsch sein? Es kann sein , dass es verwendet falsch, aber Statistiken sind meist Agnostiker und sollte nicht gedankenlos angewendet werden.
Momo

8
Die Schönheit der 68-95-99.7 Regel @Momo, ist , dass es nicht auch zu viele dezidiert nicht-Normalverteilungen gelten. In diesem Fall liegen 50% der Zahlen innerhalb von 1 sd des Mittelwerts und 100% innerhalb von 2 sd des Mittelwerts. Beachten Sie, dass sich 68% genau 50% und 95% genau 100% annähern, innerhalb der Abweichungen, die wir von einem so kleinen Datensatz erwarten würden. Dieses Beispiel veranschaulicht also die Faustregel, auch wenn sie aufgrund ihrer geringen Größe möglicherweise nicht überzeugend ist.
Whuber

2
Genau. Lassen Sie mich das auf "so korrigieren, dass die von Ihnen angegebene 99,7% -Regel nicht unbedingt gilt". Die Quelle der Verwirrung hier scheint dies als etwas mehr als eine Faustregel und nicht in Bezug auf Ihre nuancierten "etwa innerhalb der Abweichungen, die wir erwarten würden". OPs letzter Kommentar zeigt nur das.
Momo

4
Sollte der Titel in "So wenden Sie die 68-95-99.7-Regel auf Daten an, die positiv sein müssen" geändert werden? Ich denke, das fängt mehr den Geist der Frage ein. (Es ist kein Problem mit der Art und Weise, wie die Standardabweichung berechnet wird, was der Titel andeutet, sondern vielmehr mit der Art und Weise, wie Wahrscheinlichkeiten ermittelt werden.)
Silverfish,

4
Standardabweichung ist nicht "falsch". Was weniger genau ist, ist die Behandlung von Dingen, die nicht normal sind. Die Proportionen außerhalb einer bestimmten Anzahl von Standardabweichungen, die durch die Normalität impliziert werden, sind für andere Verteilungen nicht immer genau. Für kontinuierliche unimodale Verteilungen nahe 2 Standardabweichungen sind die zweiseitigen Intervalle oft ziemlich vernünftig, aber weiter entfernt können die Endwahrscheinlichkeiten sehr hohe relative Fehler aufweisen.
Glen_b

Antworten:


23

Wenn Ihre Zahlen nur positiv sein können, ist die Modellierung als Normalverteilung je nach Anwendungsfall möglicherweise nicht wünschenswert, da die Normalverteilung für alle reellen Zahlen unterstützt wird.

Vielleicht möchten Sie die Höhe als Exponentialverteilung oder als Normalverteilung modellieren?

λ


10
Der erste Satz ist im Allgemeinen nicht korrekt: Viele streng positive Größen können oft durch eine Normalverteilung angenähert werden. Wenn die Wahrscheinlichkeitsmasse unter 0 sehr klein ist, spielt dies für alle praktischen Zwecke keine Rolle. In diesem speziellen Fall ist es sicherlich richtig.
COOLSerdash

13
-1 Diese Antwort spiegelt ein weit verbreitetes (und unheilvolles) Missverständnis darüber wider, was ein statistisches Modell ist und was es wirklich bedeutet, Daten mit einer Normalverteilung zu modellieren. In der Tat, wenn wir glauben würden, was dieser Beitrag sagt, dann wäre es "sicherlich falsch", jemals eine Binomialverteilung mit einer Normalverteilung anzunähern - aber dies ist historisch gesehen die ursprüngliche und wahrscheinlich am weitesten verbreitete Verwendung der Normalverteilung! (Bearbeiten: Ich habe die Ablehnung entfernt, weil Sie die ursprüngliche Behauptung in eine viel korrektere und nützlichere
geändert haben

4
Es kommt darauf an, was Sie mit "überlegen" meinen. Ein Teil der Kosten eines Modells liegt in der Implementierung. Wenn Sie ein verkürztes Normal-Modell verwenden, müssen Sie sich wahrscheinlich auf viele benutzerdefinierte numerische Berechnungen festlegen, anstatt auf schnelle, einfache und möglicherweise sehr genaue analytische Berechnungen. Ein weiterer Zweck eines Modells ist die Gewinnung von Einsicht : Man denkt: "Wenn sich die Natur zumindest annähernd wie diese Annahmen verhält, welche Konsequenzen können aus diesen Annahmen abgeleitet werden?" Oft ist es einfacher, solche Schlussfolgerungen mit einer einfachen Annäherung zu ziehen.
Whuber

2
@whuber: nach "schön genau" habe ich mental "falsch" hinzugefügt. Es tut uns leid. Natürlich auch "aber sinnvoll" pro Box.
Stephan Kolassa

2
Obwohl die Daten aus nicht ganzzahligen Werten bestehen?
Kevin Li

19

"Was ist der richtige Weg, um 68-95-99.7 auf meinen Fall anzuwenden?"

Man sollte nur damit rechnen, dass diese Faustregel für die Berichterstattung genau gilt, wenn Sie (1) die gesamte (unendliche) Population oder die theoretische Wahrscheinlichkeitsverteilung betrachten und (2) die Verteilung genau normal ist .

Wenn Sie eine Zufallsstichprobe der Größe 20 selbst aus einer Normalverteilung entnehmen, werden Sie nicht immer feststellen, dass 95% der Daten (19 der 20 Elemente) innerhalb von 2 (oder 1.960) Standardabweichungen des Mittelwerts liegen. Tatsächlich wird weder garantiert, dass 19 der 20 Elemente innerhalb von 1.960 Populationsstandardabweichungen des Populationsmittelwerts liegen, noch dass 19 der 20 Elemente innerhalb von 1.960 Stichprobenstandardabweichungen des Stichprobenmittelwerts liegen.

Wenn Sie eine Stichprobe von Daten aus einer Verteilung entnehmen, die nicht ganz normal verteilt ist, würde man wiederum nicht erwarten, dass die 68-95-99.7-Regel genau angewendet wird. Dies kann jedoch einigermaßen nahe kommen, insbesondere wenn die Stichprobengröße groß ist (die Faustregel "99,7% Deckung" ist bei einer Stichprobengröße unter 1000 möglicherweise nicht besonders aussagekräftig) und die Verteilung der Normalverteilung einigermaßen nahe kommt. Theoretisch könnten viele Daten wie Größe oder Gewicht nicht aus einer genau normalen Verteilung stammen, oder dies würde bedeuten, dass die Wahrscheinlichkeit gering, aber nicht null ist, dass sie negativ sind. Für Daten mit einer annähernd symmetrischen und unimodalen Verteilung, bei denen mittlere Werte häufiger vorkommen und extrem hohe oder niedrige Werte wahrscheinlich abfallen, kann das Modell einer Normalverteilung für praktische Zwecke geeignet sein.Wenn mein Histogramm eine glockenförmige Kurve zeigt, kann ich dann sagen, dass meine Daten normal verteilt sind?

1/k2kStandardabweichungen vom Mittelwert. Dies garantiert, dass mindestens 75% der Daten innerhalb von zwei Standardabweichungen des Mittelwerts und 89% innerhalb von drei Standardabweichungen liegen. Diese Zahlen sind jedoch nur das theoretisch garantierte Minimum. Bei vielen grob glockenförmigen Verteilungen wird sich herausstellen, dass die Abdeckung mit zwei Standardabweichungen deutlich näher an 95% als an 75% liegt. Daher ist die "Faustregel" aus der Normalverteilung immer noch nützlich. Wenn Ihre Daten jedoch aus einer Verteilung stammen, die bei weitem nicht glockenförmig ist, können Sie möglicherweise ein alternatives Modell finden, das die Daten besser beschreibt und eine andere Erfassungsregel aufweist.

(Das Schöne an der 68-95-99.7-Regel ist, dass sie für jede Normalverteilung gilt , unabhängig von ihren Parametern für Mittelwert oder Standardabweichung. Ebenso gilt die Ungleichung von Chebyshev unabhängig von den Parametern oder sogar der Verteilung, wenn auch nur Gibt untere Grenzen für die Abdeckung an. Wenn Sie jedoch beispielsweise ein Modell mit normalem oder normalem Versatz anwenden, gibt es kein einfaches Äquivalent für die Abdeckung mit "68-95-99.7", da dies von den Parametern der Verteilung abhängen würde .)


7

Kann mir jemand helfen zu verstehen, ob ich das richtig benutze?

Oh, das ist ganz einfach. Nein, Sie verwenden es nicht richtig.

Zunächst verwenden Sie einen relativ kleinen Datensatz. Der Versuch, das statistische Verhalten anhand dieser Größenordnung herauszufiltern, ist sicherlich möglich, aber die Vertrauensbereiche sind (ähm) ziemlich groß. Bei kleinen Datenmengen sind Abweichungen von den erwarteten Verteilungen für den Kurs normal, und je kleiner die Menge ist, desto größer ist das Problem. Denken Sie daran: "Das Gesetz der Durchschnitte erlaubt nicht nur die unverschämtesten Zufälle, es erfordert sie."

Schlimmer noch, der bestimmte Datensatz, den Sie verwenden, sieht einfach nicht wie eine normale Verteilung aus. Denken Sie darüber nach - mit einem Mittelwert von 0,498 haben Sie zwei Proben unter 0,1 und drei weitere bei 0,748 oder höher. Dann haben Sie einen Cluster von 3 Punkten zwischen .17 und .22. Wenn man sich diesen bestimmten Datensatz ansieht und argumentiert, es müsse sich um eine Normalverteilung handeln, ist dies ein ziemlich guter Fall für das Argument von Procrustean. Sieht das für Sie nach einer Glockenkurve aus? Es ist durchaus möglich, dass die größere Population einer normalen oder modifizierten Normalverteilung folgt und eine größere Stichprobe das Problem lösen würde, aber ich würde nicht darauf wetten, insbesondere ohne mehr über die Population zu wissen.

Ich sage modifiziert normal, da, wie Kevin Li betont hat, eine Normalverteilung technisch alle reellen Zahlen enthält. Wie auch in Kommentaren zu seiner Antwort ausgeführt wurde, verhindert dies nicht, dass eine solche Verteilung über einen begrenzten Bereich angewendet wird und nützliche Ergebnisse erzielt werden. Wie das Sprichwort sagt: "Alle Modelle sind falsch. Einige sind nützlich."

Aber dieser bestimmte Datensatz sieht einfach nicht so aus, als würde er auf eine Normalverteilung schließen (auch nicht über einen begrenzten Bereich). Dies ist eine besonders gute Idee. Wenn Ihre 10 Datenpunkte wie .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (Mittelwert von 0.500) aussehen würden, würden Sie eine Normalverteilung annehmen?


Ich habe zufällige Daten verwendet, um meine Bedürfnisse und Probleme zu erklären
Don Coder

1
@DonCoder Zufällige Daten (es sei denn, Sie haben sie auf irgendeine Weise optimiert) würden der gleichmäßigen Verteilung folgen, nicht der Normalverteilung.
Barrycarter

5
Zufällige Daten müssen aus einer Distribution generiert werden. Welches hast du gewählt?
Peter Flom - Reinstate Monica

Ich habe das Histogramm meiner realen Daten hinzugefügt
Don Coder

2

In einem der Kommentare sagten Sie, Sie hätten "Zufallsdaten" verwendet, aber Sie sagten nicht aus welcher Verteilung. Wenn Sie über die Größe eines Menschen sprechen, sind diese ungefähr normal verteilt, aber Ihre Daten sind nicht für die Größe eines Menschen geeignet - Ihre Daten sind Bruchteile von Zentimetern!

Und Ihre Daten sind nicht aus der Ferne normal. Ich nehme an, Sie haben eine Gleichverteilung mit den Grenzen 0 und 1 verwendet. Und Sie haben eine sehr kleine Stichprobe generiert. Versuchen wir es mit einer größeren Stichprobe:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

Daher liegt keine der Daten über 2 sd des Mittelwerts, da dies außerhalb der Datengrenzen liegt. Und der Anteil innerhalb von 1 sd beträgt ungefähr 0,56.


1

Wenn Sie die Einschränkung haben, dass alle Stichproben positiv sein müssen, sollten Sie sich häufig den Logarithmus Ihrer Daten ansehen, um festzustellen, ob Ihre Verteilung durch eine logarithmische Normalverteilung angenähert werden kann.


1

Eine Standardabweichungsberechnung ist relativ zum Mittelwert. Können Sie Standardabweichungen auf Zahlen anwenden, die immer positiv sind? Absolut. Wenn Sie zu jedem der Werte in Ihrem Probensatz 1000 addieren, sehen Sie den gleichen Standardabweichungswert, aber Sie haben sich mehr Atmungsraum über Null verschafft.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Das Hinzufügen einer beliebigen Konstante zu Ihren Daten ist jedoch oberflächlich. Wenn Sie die Standardabweichung für einen so kleinen Datensatz verwenden, müssen Sie mit einer nicht verfeinerten Ausgabe rechnen. Betrachten Sie die Standardabweichung wie bei einem Autofokus-Kameraobjektiv: Je mehr Zeit (Daten) Sie angeben, desto klarer wird das Bild. Wenn nach dem Verfolgen von 1000000 Datenpunkten Ihr Mittelwert und Ihre Standardabweichung mit 10 identisch bleiben, werde ich möglicherweise die Gültigkeit Ihres Experiments in Frage stellen.


1

Ihr Histogramm zeigt, dass die Normalverteilung nicht gut passt. Sie könnten lognormal oder etwas anderes versuchen, das asymmetrisch und streng positiv ist


1

Das Wichtigste ist, dass viele von uns faul * sind und die normale Verteilung für uns faulen Menschen praktisch ist. Es ist einfach, Berechnungen unter Verwendung der Normalverteilung durchzuführen, und es hat eine gute mathematische Grundlage. Als solches ist es ein "Modell" für die Arbeit mit Daten. Dieses Modell funktioniert oft überraschend gut und fällt manchmal flach ins Gesicht.

Es ist sehr offensichtlich, dass Ihre Stichproben keine Normalverteilung in den Daten anzeigen. Die Lösung für Ihr Dilemma besteht also darin, ein anderes "Modell" auszuwählen und mit einer anderen Distribution zu arbeiten. Weibull-Verteilungen können auf Richtung sein, es gibt andere.

  • Faulenzen Sie daran, die Daten nicht wirklich zu kennen und wählen Sie bei Bedarf bessere Modelle aus.

0

Grundsätzlich verwenden Sie Verhältnisdaten im Gegensatz zu Intervalldaten. Geographen gehen dies die ganze Zeit durch, wenn sie den S / D-Wert für den jährlichen Niederschlag an einem bestimmten Ort (über 100 Jahre an Probenahmestellen im LA Civic Center) oder für Schneefall (über 100 Jahre an Schneefallproben am Big Bear Lake) berechnen. Wir können nur positive Zahlen haben, so ist es eben.


0

In der Meteorologie sehen Windgeschwindigkeitsverteilungen sehr ähnlich aus. Per Definition sind Windgeschwindigkeiten auch nicht negativ.

In Ihrem Fall würde ich mir also definitiv die Weibull-Verteilung ansehen .


0

Sie beginnen mit "gemäß der Normalverteilung", wenn Ihre Daten eindeutig nicht normalverteilt sind, das ist das erste Problem. Sie sagen: "Es spielt keine Rolle, ob es sich um eine Normalverteilung handelt oder nicht." Welches ist absoluter Unsinn. Sie können keine Aussagen über normalverteilte Daten verwenden, wenn Ihre Daten nicht normalverteilt sind.

Und Sie interpretieren die Aussage falsch. Msgstr "99,7% müssen innerhalb von drei Standardabweichungen liegen". Und 99,7% Ihrer Daten lagen tatsächlich innerhalb von drei Standardabweichungen. Noch besser war es 100% innerhalb von zwei Standardabweichungen. Die Aussage ist also wahr .

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.