Wann ist es in Ordnung zu schreiben, dass wir eine Normalverteilung einer empirischen Messung angenommen haben?

In der Lehre angewandter Disziplinen wie der Medizin ist verankert, dass Messungen bio-medizinischer Mengen in der Bevölkerung einer normalen "Glockenkurve" folgen. Eine Google-Suche der Zeichenfolge "Wir haben eine Normalverteilung angenommen" liefert Ergebnisse! Sie klingen wie "angesichts der geringen Anzahl extremer Datenpunkte haben wir in einer Studie zum Klimawandel eine Normalverteilung für die Temperaturanomalien angenommen" ; oder "wir haben eine normale Verteilung der Brutdaten von Küken angenommen" in einem möglicherweise weniger umstrittenen Dokument über Pinguine; oder "wir haben eine Normalverteilung der BIP-Wachstumsschocks angenommen" , $\small 23,900$ , ... Und andere Dinge).

Vor kurzem stellte ich die Behandlung von Zähldaten als normalverteilt in Frage, da diese streng positiv sind. Natürlich sind die Zähldaten diskret, was ihre Normalität umso künstlicher macht. Aber selbst wenn man diesen letzteren Punkt beiseite lässt, warum sollten kontinuierliche empirische Messungen wie Gewicht, Größe oder Konzentration von Glucose, die als prototypisch "kontinuierlich" angesehen werden, als normal angesehen werden? Sie können nicht mehr negativ realisierte Beobachtungen haben als Zählungen!

Ich verstehe, dass wenn die Standardabweichung wesentlich niedriger als der Mittelwert ist und nur wenige negative Werte anzeigt ("95% Range Check"), dies eine praktische Annahme sein kann und Frequenzhistogramme dies unterstützen können, wenn sie nicht zu schief sind. Aber die Frage schien nicht trivial zu sein, und eine schnelle Suche ergab interessante Dinge.

In Nature finden wir die folgende Aussage in einem Brief von DF Heath : "Ich möchte darauf hinweisen, dass für die statistische Analyse bestimmter Datentypen die Annahme, dass die Daten aus einer normalen Population stammen, normalerweise falsch ist und dass die Alternative Die Annahme einer logarithmischen Normalverteilung ist besser. Diese Alternative wird häufig von Statistikern, Ökonomen und Physikern verwendet, wird jedoch aus irgendeinem Grund von Wissenschaftlern anderer Disziplinen häufig ignoriert. "

Limpert merkt an, dass "das logarithmische Normalmodell als Annäherung in dem Sinne dienen kann, dass viele Wissenschaftler die Normalität jetzt als gültige Annäherung wahrnehmen" , während er die geringe Leistung von Anpassungstests der Normalität und die Schwierigkeit bei der Auswahl feststellt die richtige Verteilung empirisch im Umgang mit kleinen Proben.

Daher lautet die Frage: "Wann ist es akzeptabel, eine Normalverteilung einer empirischen Messung in den angewandten Wissenschaften ohne weitere unterstützende Beweise anzunehmen?" Und warum haben andere Alternativen, wie die logarithmische Normalität, dies nicht und werden es wahrscheinlich auch nicht tun?

— Antoni Parellada
quelle

Die Antwort hängt davon ab, was Sie tun und wie empfindlich es auf mögliche Abweichungen von der Normalität reagiert (dh wenn Sie die Varianzgleichheit mit einem F-Test des Verhältnisses testen, sollten Sie Verteilungen haben, die es sind sehr nahe am Normalen ... aber wenn Sie ein t-Intervall für die Differenz der Mittelwerte mit großen Stichproben konstruieren, müssen Sie diese möglicherweise überhaupt nicht sehr nahe an der Normalität haben). ... und auf Ihre Toleranz (oder die Ihres Publikums) für die Art der Auswirkungen, die dies auf die Schlussfolgerung haben würde, die Sie machen.

— Glen_b -Rate State Monica

Ich finde deine Frage wirklich interessant. Lassen Sie uns einige Dinge berücksichtigen:

Zu sagen, dass eine beobachtete Variable im wirklichen Leben kontinuierlich ist, ist immer falsch, weil es sehr schwierig ist, wirklich kontinuierlich zu messen.
Addiere nun die Eigenschaften einer normalen Zufallsvariablen : Bereich , symmetrische Verteilung (Mittelwert = Modus = Median), die Wahrscheinlichkeitsdichtefunktion hat Wendepunkte bei und . $N(\mu, \sigma^2)$ $(-\infty; +\infty)$ $f_X(x)$ $x = \mu - \sigma$ $x = \mu + \sigma$
Zu sagen, dass eine Zufallsvariable einer Log-Normalverteilung folgt, impliziert, dass die Variable einer Normalverteilung folgt. $X$ $Y=log(X)$

Zu sagen, dass jede beobachtete Variable einer Normal- oder einer Log-Normal-Verteilung folgt, klingt irgendwie verrückt. In der Praxis messen Sie Abweichungen der beobachteten Frequenzen von den erwarteten Frequenzen, wenn diese Variable aus einer normalen (oder einer anderen verteilten) Population stammt. Wenn Sie sagen können, dass diese Abweichungen nur zufällig sind, weil Sie Stichproben machen, dann können Sie sagen, dass es nicht genügend Beweise gibt, um die Nullhypothese abzulehnen, dass diese Variable aus einer normalen Population stammt , was übersetzt wird, dass wir so arbeiten, als ob ( unter der Annahme, dass) die Variable einer Normalverteilung folgt .

Bei der Beantwortung Ihrer ersten Frage glaube ich nicht, dass jemand so mutig ist zu sagen, dass angenommen wird, dass eine Variable ohne weitere Beweise normal verteilt ist . Um so etwas zu sagen, benötigen Sie mindestens ein QQ-Diagramm, ein Histogramm, einen Anpassungstest oder eine Kombination davon.

Um die zweite Frage zu beantworten, besteht das besondere Interesse an der Normalverteilung darin, dass viele der klassischen Tests auf einer Annahme der Normalität der Variablen beruhen, wie der t-Test oder der -Test für die Varianz. Normalität vereinfacht also die Arbeit, das ist alles. $\chi^2$

— Toneloy
quelle

Vielen Dank für Ihre Antwort, die viele wichtige Punkte berührt. Ich neige jedoch dazu zu denken, dass die Dinge in der "realen Welt" der angewandten Wissenschaften weniger strukturiert sind und oft eine direkte Tangente genommen wird, um Normalität anzunehmen.

— Antoni Parellada

Etwas, das ich nicht erwähnt habe, ist der andere Teil der Geschichte, wenn es sich um die Normalverteilung handelt: Es ist die Grenzverteilung der Standardisierung einer Summe von iid-Zufallsvariablen, wie es im Satz der zentralen Grenze angegeben ist. Wenn Sie sagen können, dass Ihre Variable eine Summe vieler iid-Zufallsvariablen ist, wie in der Begründung für die Brownsche Bewegung, dann können Sie sagen, dass es sich um eine normale Zufallsvariable handelt. Das ist die einzige gültige Verknüpfung, die ich kenne. Ich kann dies in die Antwort aufnehmen, wenn Sie möchten.

— Toneloy