Muss eine „Normalverteilung“ einen Mittelwert = Median = Modus haben?


17

Ich war in einer Debatte mit meinem Professor für Statistik über "Normalverteilungen". Ich behaupte, um wirklich eine Normalverteilung zu erhalten, muss man einen Mittelwert = Median = Modus haben, alle Daten müssen unter der Glockenkurve enthalten sein und perfekt symmetrisch um den Mittelwert. Technisch gesehen gibt es daher praktisch KEINE Normalverteilungen in realen Studien, und wir sollten sie etwas anderes nennen, vielleicht "fast normal".

Sie sagt, ich bin zu wählerisch, und wenn die Abweichung / Kurtosis weniger als 1,0 beträgt, handelt es sich um eine Normalverteilung, bei der Punkte für eine Prüfung abgezogen wurden. Bei dem Datensatz handelt es sich um die Gesamtzahl der Stürze / Jahr in einer Zufallsstichprobe von 52 Pflegeheimen, bei der es sich um eine Zufallsstichprobe einer größeren Bevölkerung handelt. Einsichten?

Problem:

FRAGE: 3. Berechnen Sie für diese Daten die Maße für Schiefe und Kurtosis. Fügen Sie ein Histogramm mit einer normalen Kurve hinzu. Besprechen Sie Ihre Ergebnisse. Sind die Daten normal verteilt?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

ein. Es gibt mehrere Modi. Der kleinste Wert wird angezeigt

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Meine Antwort:

Die Daten sind platykurtisch und weisen nur eine leichte positive Abweichung auf. Sie sind NICHT normal verteilt, da der Mittelwert und der Median und der Modus nicht gleich sind und die Daten nicht gleichmäßig um den Mittelwert verteilt sind. In Wirklichkeit sind praktisch keine Daten jemals eine perfekte Normalverteilung, obwohl wir über „ungefähre Normalverteilungen“ wie Größe, Gewicht, Temperatur oder Länge des erwachsenen Ringfingers in großen Bevölkerungsgruppen sprechen können.

Antwort des Professors:

Sie haben Recht, dass es keine vollkommen normale Verteilung gibt. Aber wir suchen keine Perfektion. Wir müssen Daten zusätzlich zum Histogramm und den Maßen der zentralen Tendenz betrachten. Was sagen die Statistiken über Schiefe und Kurtosis über die Verteilung aus? Da beide Werte zwischen den kritischen Werten -1 und +1 liegen, wird davon ausgegangen, dass diese Daten normal verteilt sind.


3
Ich würde gerne den genauen Wortlaut Ihres Professors erfahren. Im Prinzip hat eine Normalverteilung Mittelwert, Median und Modus identisch (aber viele andere Verteilungen auch) und hat eine Schiefe von 0 und eine (sogenannte überschüssige) Kurtosis von 0 (und einige andere Verteilungen auch). Bestenfalls ist eine Verteilung mit (z. B.) leichter Schiefe oder Kurtosis in etwa normal. Beachten Sie, dass fast alle realen Daten bestenfalls Annäherungen an benannte Verteilungen in der theoretischen Menagerie sind.
Nick Cox

22
Ich bin mit @ user2974951 nicht einverstanden. In Gesellschaft mit jedem guten Text, den ich kenne, bin ich vollkommen glücklich zu denken, dass die Normalverteilung einen Median und einen Modus hat. Und das gilt weitgehend für kontinuierliche Verteilungen, obwohl ich nicht bezweifle, dass pathologische Gegenbeispiele identifiziert werden können.
Nick Cox

4
Vielen Dank für das spezifische Detail, das auf beiden Seiten Verdienst zeigt, aber ich benote keinen von Ihnen. Ich lehne jedoch den von Ihrem Professor verwendeten Begriff der kritischen Werte stark ab , da die Grenzwerte für Schiefe und Kurtosis keine andere Bedeutung haben , als Faustregeln zu sein , die verwendet werden könnten. Abhängig davon, was Sie mit den Daten tun, kann ein Versatz < 1 mit dem Wunsch einhergehen, die Daten zu transformieren, und ein Versatz von > 1 mit dem Verlassen der Daten, wie sie sind, und in ähnlicher Weise mit der Kurtosis. ±1<1>1
Nick Cox

6
Wenn wir uns ernsthaft auf die Kunst des Nitpicking einlassen, sollten wir beobachten, dass es keine negativen Stürze gibt und dass Stürze diskret sind, so dass die Verteilung de facto nicht normal sein kann. Dies macht die Frage zunächst hinfällig. Im Ernst, die Frage ist eindeutig ein erfundenes Beispiel, das darauf abzielt, bestimmte Faustregeln zu überprüfen. In der Realität kann es je nach Zielsetzung unserer Studie sinnvoll sein, eine Normalverteilung anzunehmen oder nicht. In Wahrheit werden wir es nie erfahren, da wir nur eine Probe haben.
Ioannis

5
@ user2974951 Sie sollten also in Betracht ziehen, Ihren ersten Kommentar zu löschen, da Sie jetzt damit nicht einverstanden sind. Bisher hat es drei Leser dazu gebracht, zu signalisieren, dass sie damit einverstanden sind!
whuber

Antworten:


25

Ein Problem bei Ihrer Diskussion mit dem Professor ist die Terminologie. Es gibt ein Missverständnis, das der Vermittlung einer möglicherweise nützlichen Idee im Wege steht. An verschiedenen Stellen machen Sie beide Fehler.

Als Erstes gilt es zu klären, was für eine Distribution es ist ist.

Eine normale Verteilung ist ein spezielles mathematisches Objekt, das Sie als Modell für eine unendliche Population von Werten in Erwägung ziehen könnten. (Keine endliche Population kann tatsächlich eine kontinuierliche Verteilung haben.)

Was diese Verteilung (sobald Sie die Parameter angegeben haben) macht, ist (über einen algebraischen Ausdruck) der Anteil der Populationswerte, der innerhalb eines bestimmten Intervalls auf der realen Linie liegt. Etwas weniger locker definiert es die Wahrscheinlichkeit, dass ein einzelner Wert aus dieser Grundgesamtheit in einem bestimmten Intervall liegt.

Eine beobachtete Stichprobe hat nicht wirklich eine Normalverteilung. Eine Stichprobe könnte (möglicherweise) aus einer Normalverteilung gezogen werden, falls eine solche existieren würde. Wenn Sie sich das empirische cdf der Stichprobe ansehen, ist es diskret. Wenn Sie es (wie in einem Histogramm) binieren, hat das Sample eine "Häufigkeitsverteilung", aber das sind keine Normalverteilungen. Die Verteilung kann uns (im wahrscheinlichkeitstheoretischen Sinne) einige Informationen über eine Zufallsstichprobe aus der Bevölkerung liefern, und eine Stichprobe kann uns auch einige Informationen über die Bevölkerung liefern.

Eine vernünftige Interpretation eines Ausdrucks wie "normalverteilte Stichprobe" * ist "eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit".

* (Ich versuche im Allgemeinen, es aus Gründen, die hoffentlich klar genug sind, nicht selbst auszusprechen; normalerweise schaffe ich es, mich auf die zweite Art von Ausdruck zu beschränken.)

Nachdem wir Begriffe definiert haben (wenn auch noch ein wenig locker), wollen wir uns nun die Frage genauer ansehen. Ich werde auf bestimmte Teile der Frage eingehen.

Normalverteilung muss mean = median = mode sein

Dies ist sicherlich eine Bedingung für die normale Wahrscheinlichkeitsverteilung, jedoch keine Voraussetzung für eine Stichprobe aus einer Normalverteilung. Stichproben können asymmetrisch sein, einen vom Median abweichenden Mittelwert haben usw. [Wir können uns jedoch ein Bild davon machen, wie weit sie auseinanderliegen, wenn die Stichprobe tatsächlich aus einer normalen Population stammt.]

Alle Daten müssen unter der Glockenkurve enthalten sein

Ich bin mir nicht sicher, was "enthalten unter" in diesem Sinne bedeutet.

und perfekt symmetrisch um den Mittelwert.

Nein; Sie sprechen hier von den Daten , und eine Stichprobe aus einer (definitiv symmetrischen) normalen Grundgesamtheit wäre selbst nicht perfekt symmetrisch.

Technisch gesehen gibt es daher in realen Studien praktisch KEINE Normalverteilungen.

Ich stimme Ihrer Schlussfolgerung zu, aber die Begründung ist nicht korrekt. Dies ist keine Folge der Tatsache, dass Daten nicht perfekt symmetrisch sind (usw.). Es ist die Tatsache, dass die Bevölkerung selbst nicht ganz normal ist .

Wenn die Abweichung / Kurtosis weniger als 1,0 beträgt, handelt es sich um eine Normalverteilung

Wenn sie das so sagt, ist sie definitiv falsch.

Eine Probenversetzung kann viel näher bei 0 liegen (wobei "kleiner als" in absoluter Größe nicht der tatsächliche Wert bedeutet), und die überschüssige Kurtosis der Probe kann auch viel näher bei 0 liegen (sie kann sogar zufällig oder zufällig sein) Die Verteilung, aus der die Probe gezogen wurde, kann jedoch leicht deutlich von der Norm abweichen.

Wir können noch weiter gehen - selbst wenn wir auf magische Weise wüssten, dass die Schiefe und die Kurtosis der Bevölkerung genau die einer Normalbevölkerung sind, würde es uns nicht sagen, dass die Bevölkerung normal ist oder auch nur annähernd normal.

Bei dem Datensatz handelt es sich um die Gesamtzahl der Stürze / Jahr in einer Zufallsstichprobe von 52 Pflegeheimen, bei der es sich um eine Zufallsstichprobe einer größeren Bevölkerung handelt.

Die Bevölkerungsverteilung der Zählungen ist nie normal. Die Zählungen sind diskret und nicht negativ, die Normalverteilungen sind kontinuierlich und erstrecken sich über die gesamte reale Linie.

Aber wir konzentrieren uns hier wirklich auf das falsche Thema. Wahrscheinlichkeitsmodelle sind genau das, Modelle . Lassen Sie uns nicht unsere Modelle mit der Realität verwechseln .

Das Problem ist nicht "Sind die Daten selbst normal?" (können sie nicht sein), noch nicht einmal "ist die Population, aus der die Daten stammen, normal?" (Dies wird so gut wie nie der Fall sein).

Eine nützlichere Frage ist: "Wie stark würde sich meine Schlussfolgerung auswirken, wenn ich die Bevölkerung wie normal verteilt behandeln würde?"

Es ist auch viel schwieriger, eine gute Antwort zu finden, und es kann erheblich mehr Arbeit erfordern, als ein paar einfache Diagnosen zu betrachten.

Die von Ihnen angezeigten Stichprobenstatistiken widersprechen nicht besonders der Normalität (Sie könnten solche Statistiken sehen oder "schlimmer", wenn Sie zufällige Stichproben dieser Größe aus normalen Bevölkerungsgruppen hätten), aber das bedeutet an sich nicht, dass die tatsächliche Bevölkerung von dem die Probe gezogen wurde, ist für einen bestimmten Zweck automatisch "nah genug" an der Norm. Es wäre wichtig, den Zweck (welche Fragen Sie beantworten) und die Robustheit der dafür verwendeten Methoden zu berücksichtigen, und selbst dann können wir möglicherweise nicht sicher sein, ob es "gut genug" ist. manchmal ist es vielleicht besser, einfach nicht anzunehmen, was wir nicht von vornherein begründet haben (z. B. aufgrund von Erfahrungen mit ähnlichen Datensätzen).

Es ist keine Normalverteilung

Daten - auch Daten, die aus einer normalen Bevölkerung stammen - haben niemals genau die Eigenschaften der Bevölkerung. Allein aus diesen Zahlen kann man nicht schlussfolgern, dass die Bevölkerung hier nicht normal ist.

Auf der anderen Seite haben wir auch keine hinreichend solide Grundlage, um zu sagen, dass es dem Normalen "nahe genug" ist - wir haben nicht einmal überlegt, ob wir Normalität annehmen wollen, und wissen daher nicht, für welche Verteilungsmerkmale es empfindlich sein könnte.

Wenn ich zum Beispiel zwei Stichproben für eine Messung hätte, von der ich wusste, dass sie nicht sehr diskret sind (meistens nur wenige unterschiedliche Werte) und einigermaßen nahe an der Symmetrie liegen, wäre ich möglicherweise relativ glücklich, wenn ich zwei Stichproben verwenden würde T-Test bei einer nicht ganz so kleinen Stichprobengröße; Es ist mäßig robust bis zu leichten Abweichungen von den Annahmen (etwas pegelfest, nicht so leistungsfähig). Aber ich wäre viel vorsichtiger, wenn ich die Normalität kausal annehmen würde, wenn ich zum Beispiel die Gleichheit der Ausbreitung prüfe, weil der beste Test unter dieser Annahme ziemlich empfindlich für die Annahme ist.

Da beide Werte zwischen den kritischen Werten -1 und +1 liegen, wird davon ausgegangen, dass diese Daten normal verteilt sind. "

Wenn das wirklich das Kriterium ist, nach dem man sich für ein normales Verteilungsmodell entscheidet, führt es Sie manchmal zu ziemlich schlechten Analysen.

Die Werte dieser Statistiken geben uns einige Hinweise auf die Population, aus der die Stichprobe gezogen wurde, aber das bedeutet keineswegs, dass ihre Werte in irgendeiner Weise ein „sicherer Leitfaden“ für die Auswahl einer Analyse sind.


Um das zugrunde liegende Problem mit einer noch besser formulierten Version einer solchen Frage zu lösen, wie die, die Sie hatten:

Der gesamte Prozess des Betrachtens einer Stichprobe zur Auswahl eines Modells ist mit Problemen behaftet. Dadurch werden die Eigenschaften aller nachfolgenden Analyseoptionen auf der Grundlage der von Ihnen ermittelten Ergebnisse geändert. Zum Beispiel für einen Hypothesentest sind Ihre Signifikanzniveaus, p-Werte und Potenzen nicht das, was Sie auswählen / berechnen würden , da diese Berechnungen voraussetzen, dass die Analyse nicht auf den Daten basiert.

Siehe zum Beispiel Gelman und Loken (2014), " The Statistical Crisis in Science ", American Scientist , Band 102, Nummer 6, Seite 460 (DOI: 10.1511 / 2014.111.460), in dem Probleme mit solchen datenabhängigen Analysen diskutiert werden.


Hallo Peter, sorry, ich habe deinen Beitrag dort nicht gesehen.
Glen_b

Diese Unterhaltung wurde in den Chat verschoben .
Glen_b

41

Sie verpassen den Punkt und sind wahrscheinlich auch "schwierig", was in der Branche nicht geschätzt wird. Sie zeigt Ihnen ein Spielzeugbeispiel, um Sie in der Beurteilung der Normalität eines Datensatzes zu schulen, dh ob der Datensatz aus einer Normalverteilung stammt . Die Betrachtung von Verteilungsmomenten ist eine Möglichkeit, die Normalität zu überprüfen, z. B. basiert der Jarque-Bera-Test auf einer solchen Bewertung.

Ja, die Normalverteilung ist perfekt symmetrisch. Wenn Sie jedoch ein Sample aus einer echten Normalverteilung ziehen, ist dieses Sample höchstwahrscheinlich nicht perfekt symmetrisch. Dies ist der Punkt, den Sie völlig vermissen. Das können Sie ganz einfach selbst testen. Generieren Sie einfach eine Stichprobe aus der Gaußschen Verteilung und überprüfen Sie deren Moment. Sie werden niemals vollkommen "normal" sein, obwohl die wahre Verteilung so ist.

Hier ist ein albernes Python-Beispiel. Ich generiere 100 Stichproben von 100 Zufallszahlen und erhalte dann deren Mittelwerte und Mediane. Ich drucke das erste Beispiel aus, um zu zeigen, dass der Mittelwert und der Median unterschiedlich sind, und zeige dann das Histogramm der Differenz zwischen dem Mittelwert und dem Median. Sie können sehen, dass es ziemlich eng ist, aber der Unterschied ist im Grunde nie Null. Beachten Sie, dass die Zahlen tatsächlich aus einer Normalverteilung stammen .

Code:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

Ausgänge: Bildbeschreibung hier eingeben

PS

Nun hängt es vom Kontext ab, ob das Beispiel aus Ihrer Frage als normal angesehen werden soll oder nicht. Im Rahmen dessen , was in Ihrem Klassenzimmer gelehrt wurde Du irrst dich, weil Ihr Professor wollte sehen , ob Sie die Daumenregel Test wissen , dass sie gab dir, was ist , dass Skew und Überschuss Notwendigkeit Kurtosis in sein -1 bis 1 Angebot.

Ich persönlich habe diese spezielle Faustregel nie angewendet (ich kann sie nicht als Test bezeichnen) und wusste nicht einmal, dass es sie gibt. Anscheinend benutzen es einige Leute auf einigen Gebieten. Wenn Sie Ihre Datensatzbeschreibungen in JB-Test einfügen würden, hätte dies die Normalität abgelehnt . Daher können Sie natürlich nicht zu Unrecht behaupten, dass der Datensatz nicht normal ist, aber Sie liegen in dem Sinne falsch, dass Sie die von Ihnen erwartete Regel nicht angewendet haben, basierend auf dem, was in der Klasse gelehrt wurde.

Wenn ich Sie wäre, würde ich mich höflich an Ihren Professor wenden und mich erklären sowie die JB-Testausgabe zeigen. Ich würde zugeben, dass meine Antwort aufgrund ihres Tests natürlich falsch war. Wenn Sie versuchen, mit ihr so ​​zu argumentieren, wie Sie es hier tun, ist Ihre Wahrscheinlichkeit sehr gering, dass Sie den Punkt im Test wiederfinden, da Ihre Argumentation in Bezug auf Mediane, Mittelwerte und Stichproben schwach ist. Wenn Sie Ihre Melodie ändern, haben Sie einen Fall.


23
(+1) Genau der Punkt. Verwirren der Zufallsvariablen und einer Auswahl von Erkenntnissen aus dieser Zufallsvariablen.
Xi'an,

15
t

Wäre es fair zu sagen, dass, wenn Ihre Proben perfekt normal verteilt wären, dies ein Beweis dafür ist, dass die Proben nicht zufällig sind?
JimmyJames

@JimmyJames, vor 4 Jahren gab es einen Artikel in Science, in dem behauptet wurde, ein 20-minütiges Gespräch mit einem schwulen Werber könne deine Gefühle gegenüber schwulen Menschen ändern. Es stellt sich heraus, dass die Autoren ihre Umfragedaten zusammengestellt haben. Sie waren zu faul und erzeugten perfektes Gaußsches Rauschen, und so wurden sie gefangen - siehe Unregelmäßigkeiten in LaCour (2014) von Broockman et al.
Aksakal,

@Aksakal Ich bin mir nicht sicher, ob das genau dasselbe ist, was ich frage. In diesem Fall war das Argument meines Erachtens, dass echte Daten niemals völlig normal sind. Ich gehe von Ihrer Aussage aus: "Wenn Sie jedoch eine Stichprobe aus einer echten Normalverteilung ziehen, ist diese Stichprobe höchstwahrscheinlich nicht perfekt symmetrisch." Wenn ich zufällig aus einer perfekten Normalverteilung eine Stichprobe mache, würde ich nicht erwarten, dass jeder nachfolgende Datenpunkt genau an die Stelle fällt, an der er zum Ausfüllen einer perfekten Normalkurve benötigt wird. Das scheint mir ein nicht zufälliger Auswahlprozess zu sein.
JimmyJames

6

Der Lehrer ist eindeutig nicht in seinem Element und sollte wahrscheinlich keine Statistik unterrichten. Es scheint mir schlimmer, etwas Falsches zu lehren, als es überhaupt nicht zu lehren.

Diese Probleme könnten alle leicht geklärt werden, wenn die Unterscheidung zwischen "Daten" und "Prozess, der die Daten erzeugt hat" klarer gemacht würde. Daten zielen auf den Prozess ab, der die Daten erzeugt hat. Die Normalverteilung ist ein Modell für diesen Prozess.

Es macht keinen Sinn darüber zu sprechen, ob die Daten normal verteilt sind. Aus einem Grund sind die Daten immer diskret. Aus einem anderen Grund beschreibt die Normalverteilung eine Unendlichkeit potenziell beobachtbarer Größen, nicht eine endliche Menge spezifischer beobachteter Größen.

Außerdem lautet die Antwort auf die Frage "Ist der Prozess , der die Daten erzeugt hat, ein normal verteilter Prozess " unabhängig von den Daten immer "Nein". Zwei einfache Gründe: (i) Alle Messungen, die wir durchführen, sind notwendigerweise diskret und werden auf ein gewisses Maß gerundet. (ii) Perfekte Symmetrie existiert wie ein perfekter Kreis nicht in beobachtbarer Natur. Es gibt immer Unvollkommenheiten.

Die Antwort auf die Frage "Was sagen diese Daten über die Normalität des Datenerzeugungsprozesses aus?" Könnte bestenfalls wie folgt lauten: "Diese Daten stimmen mit dem überein, was wir erwarten würden, wenn die Daten wirklich von a stammen normalverteilter Prozess. " Diese Antwort lässt nicht den Schluss zu, dass die Verteilung normal ist.

Diese Probleme lassen sich mithilfe der Simulation sehr leicht verstehen. Simulieren Sie einfach Daten aus einer Normalverteilung und vergleichen Sie diese mit den vorhandenen Daten. Wenn es sich bei den Daten um Zählungen handelt (0,1,2,3, ...), ist das normale Modell offensichtlich falsch, da es keine Zahlen wie 0,1,2,3, ... erzeugt. Stattdessen werden Zahlen mit Dezimalstellen erzeugt, die für immer weitergehen (oder zumindest so weit es der Computer zulässt). Eine solche Simulation sollte das erste sein, was Sie tun, wenn Sie sich mit der Normalitätsfrage befassen. Dann können Sie die Diagramme und Zusammenfassungsstatistiken genauer interpretieren.


10
Ich habe Ihre Antwort nicht herabgestuft, aber denken Sie, dass Sie einen Hochschullehrer nach den Worten eines Studenten beurteilen. Wie wahrscheinlich ist es, dass ein Schüler Recht hat und ein Lehrer Unrecht hat? Ist es nicht wahrscheinlicher, dass der Student seinen Professor und den Kontext des Gesprächs falsch darstellt?
Aksakal

Aufgrund meiner Erfahrung und der Worte der Schüler würde ich sagen, dass es wahrscheinlicher ist, dass der Lehrer sich irrt. Es gibt Lehrer mit geringer formaler Ausbildung, die an Universitäten überall Kurse oder sogar Abschlusskurse unterrichten. Wenn die Akkreditierungsagenturen nur die Wahrheit wüssten!
Peter Westfall

6
@Possum-Pie, ich kann mir vorstellen, was von dir erwartet wird. Es ist wahrscheinlich ein 101er-Kurs in der Statistik, also muss man sich mit Schiefe und Kurtosis auseinandersetzen. Wenn sie nicht nahe genug bei 0 und 3 liegen, sagen Sie, dass dies nicht normal ist. Das ist alles. Genau das macht JB Test auf eine formalere Art und Weise. Der Sinn der Übung ist, dass Sie sich daran erinnern, dass Gaussian eine Schräglage 0 und eine Kurtosis 3 hat. Sie verwandeln diese alberne, aber notwendige Übung in eine philosophische Diskussion.
Aksakal

2
Der Kommentar des Lehrers "Da beide Werte zwischen den kritischen Werten -1 und +1 liegen, werden diese Daten als normalverteilt betrachtet" zeigt definitiv entweder (i) Unverständnis oder (ii) Bereitschaft, das zu lehren, was er / sie weiß sich irren. Ich denke nicht, dass es eine philosophische Diskussion ist, die Bereitschaft der Lehrer oder pädagogische Methoden in Frage zu stellen.
Peter Westfall

3
"Konsistenz" Sprache ist gut. Aber wie Possum-Pie feststellte, sagen die Lehrer den Schülern, "basierend auf diesem Test / dieser Diagnose sind die Daten normal", was in mehreren Punkten falsch ist. Lehrer (psychisch und anderweitig) müssen (i) Datenerzeugungsprozess von Daten unterscheiden, (ii) den Schülern mitteilen, dass das normale und andere Modell Modelle für den Datenerzeugungsprozess sind, (iii) ihnen mitteilen, dass die Normalverteilung immer gegeben ist falsch als Modell, unabhängig von der Diagnose, und (iv) ihnen sagen, dass der Sinn der Übung darin besteht, den Grad der Nichtnormalität zu diagnostizieren, nicht mit Ja / Nein zu antworten. Erklären Sie dann, warum es wichtig ist.
Peter Westfall

4

Ich bin Ingenieur. In meiner Welt ist der angewandte Statistiker das, was ich am meisten sehe, und er liefert den konkretesten Wert. Wenn Sie im angewandten Bereich arbeiten möchten, müssen Sie in der Praxis eine solide Grundlage vor der Theorie haben: Unabhängig davon, ob es elegant ist oder nicht, das Flugzeug muss fliegen und nicht abstürzen.

Wenn ich über diese Frage nachdenke, denke ich, wie viele meiner technischen Experten auch, darüber nach, "wie es in der realen Welt mit dem Vorhandensein von Lärm aussieht".

Das zweite, was ich mache, ist oft eine Simulation, mit der ich die Frage in den Griff bekommen kann.

Hier ist eine sehr kurze Erkundung:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Es gibt dies als Ausgabe: Bildbeschreibung hier eingeben

Hinweis: Seien Sie vorsichtig mit der x-Achse, da diese logarithmisch und nicht gleichmäßig skaliert ist.

Ich weiß, dass der Mittelwert und der Median genau gleich sind. Der Code sagt es. Die empirische Erkenntnis ist stark abhängig von der Stichprobengröße, und wenn es nicht wirklich unendlich viele Stichproben gibt, können sie nie perfekt mit der Theorie übereinstimmen.

Sie können darüber nachdenken, ob die Unsicherheit im Median den geschätzten Mittelwert einhüllt oder umgekehrt. Wenn die beste Schätzung des Mittelwerts innerhalb des 95% -KI der Schätzung für den Median liegt, können die Daten den Unterschied nicht erkennen. Die Daten besagen, dass sie in der Theorie identisch sind. Wenn Sie mehr Daten erhalten, lesen Sie, was darin steht.


1
Interessantes Diagramm. Ich hätte gedacht, der Mittelwert wäre im Allgemeinen größer als der Median, wenn man die Ausreißer der mittleren Verfolgungsjagden betrachtet ... mit anderen Worten, die roten Balken wären Mittelwerte und die grünen Medianwerte. Was vermisse ich?
Possum-Pie

1
@ Possum-Pie Denken Sie daran, dass Ausreißer in beide Richtungen sein können ... die Normalverteilung hat sowohl einen linken als auch einen rechten Schwanz!
Silverfish

2
@Will das ist eine ziemlich Standardimplementierung eines Boxplots.
Glen_b

1
@ Glen_b Ich habe viele Lehrbücher gesehen, in denen die Verwendung von Punkten für Ausreißer nicht gelehrt wird, daher kann ich verstehen, dass jemand nicht an sie gewöhnt ist. Aber laut Hadley waren die Punkte schon da, als Tukey 1970 seine "schematische Handlung" vorstellte.
Silverfish,

1
Ja, eine Version ohne Ausreißer (nur basierend auf einer Zusammenfassung mit 5 Zahlen) wäre im Wesentlichen Mary Spears Entfernungsdiagramm (1952). (Beachten Sie, dass das Papier einige wichtige historische Boxplot-Vorläufer aus der Zeit vor 1952
übersieht.

4

In der medizinischen Statistik kommentieren wir immer nur die Formen und Erscheinungen von Verteilungen. Die Tatsache, dass keine diskrete endliche Stichprobe jemals normal sein kann, ist irrelevant und umständlich. Ich würde dich dafür falsch markieren.

Wenn eine Distribution "meistens" normal aussieht, können wir sie gerne als normal bezeichnen. Wenn ich Verteilungen für ein nicht-statistisches Publikum beschreibe, kann ich sehr gut etwas ungefähr Normales nennen, auch wenn ich weiß, dass die Normalverteilung nicht das zugrunde liegende Wahrscheinlichkeitsmodell ist. Ich habe das Gefühl, dass ich hier auf der Seite Ihres Lehrers stehe ... aber wir Sie müssen weder ein Histogramm noch einen Datensatz überprüfen.

Als Tipp würde ich die folgenden Inspektionen sehr genau durchgehen:

  • Wer sind die Ausreißer, wie viele und welche Werte haben sie?
  • Sind die Daten bimodal?
  • Scheinen die Daten eine verzerrte Form anzunehmen, so dass eine Transformation (wie ein Protokoll) den "Abstand" zwischen Beobachtungen besser quantifizieren würde?
  • Gibt es offensichtliche Kürzungen oder Häufungen, sodass Assays oder Labors einen bestimmten Wertebereich nicht zuverlässig erkennen können?

In einem Gebiet mit so viel Mathematik scheinen die Leute strenger zu sein, wenn sie sagen, dass etwas "Normalverteilung" ist, die bestimmte sehr strenge Konotationen hat, und wenn sie sagen, dass es "fast normal" ist. Ich würde nie sagen, dass 1,932 2 ist, aber ich kann sagen, dass es fast 2 ist.
Possum-Pie

1
"Irrelevant und pedantisch"? Ernsthaft? Ich stimme Possum-Pie zu. Ich würde auch niemals sagen, dass 1.932 dasselbe ist wie 2.0. Zu sagen, dass Daten "normal" sind, verwirrt alles, von der Bedeutung der Normalverteilung als Modell für den Prozess , der die Daten erzeugt hat, bis hin zur Tatsache, dass Normalverteilungen unsere Prozesse niemals präzise modellieren. Jedem sollte beigebracht werden, dass er beim Erlernen der Normalverteilung keine dummen Aussagen macht.
Peter Westfall

2
@ PeterWestfall Ich denke, ein Teil des Problems hier ist, dass "die Daten aus einer Normalverteilung stammen" so gut wie nie buchstäblich wahr ist, und selbst wenn es wahr wäre, wäre es wahrscheinlich unmöglich, es endgültig zu beweisen. Da die Redewendung also kaum jemals buchstäblich zutreffen würde, wird stattdessen "die Daten sind normal" als praktische Abkürzung verwendet, um zu bedeuten, "die Daten scheinen für praktische Zwecke der Normalität nahe zu sein" oder "die Normalverteilung ist eine gute Lösung." genug Modell für unsere DGP ".
Silverfish

Warum also lehren, was falsch ist, wenn es so einfach ist, zu lehren, was richtig ist?
Peter Westfall

3
@PeterW Der sprachliche Aspekt betrifft nicht nur den Unterricht, sondern auch die Art und Weise, wie der Ausdruck im Alltag verwendet wird (und wie er ausgelegt werden soll): "Die Daten sind normal" bedeutet so gut wie nie "Ich weiß genau, dass Die Grundgesamtheit, aus der die Daten entnommen wurden, ist normal ", weil dies so gut wie nie gemeint war. Es wäre schöner , wenn die Leute sagen „die Daten scheinen normal“ oder sogar „die Daten sehen normalish “ (dh nahe genug , um normales scheint , dass wir nicht über seine Abweichung von der Normalität ist egal) , aber vor allem in einer angelegten Einstellung Leute oft sagen Sachen wie diese.
Silverfish

2

Ich denke, Sie und Ihr Professor sprechen in einem anderen Kontext. Die Gleichheit von Mittelwert = Median = Modus ist ein Merkmal der theoretischen Verteilung und dies ist nicht das einzige Merkmal. Sie können nicht sagen, dass die Verteilung normal ist, wenn für eine Verteilung über property hold. Die T-Verteilung ist ebenfalls symmetrisch, aber nicht normal. Sie sprechen also von theoretischen Eigenschaften der Normalverteilung, die für die Normalverteilung immer zutreffen.

Ihr Professor spricht über die Verteilung von Beispieldaten. Er hat recht, Sie werden niemals Daten im wirklichen Leben erhalten, wo Sie Mean = Median = Mode finden. Dies ist einfach auf einen Stichprobenfehler zurückzuführen . In ähnlicher Weise ist es sehr unwahrscheinlich, dass Sie für Probendaten einen Neigungskoeffizienten von Null und eine überschüssige Kurtosis von Null erhalten. Ihr Professor gibt Ihnen nur eine einfache Regel, um sich anhand der Stichprobenstatistik ein Bild von der Verteilung zu machen. Was im Allgemeinen nicht stimmt (ohne weitere Informationen zu erhalten).


3
Professor soll weiblich sein.
Nick Cox

Warum Sie nicht mean = median = mode erhalten, liegt hauptsächlich daran, dass viele Distributionen wirklich schief sind! (Streng genommen ist der Modus "Mittelwert = Median =" auch mit verzerrten Verteilungen möglich, obwohl dies in vielen Lehrbüchern angegeben ist.)
Nick Cox,

1
Ich bin nicht einverstanden, dass die Ungleichheit von Mittelwert / Median / Modus = Stichprobenfehler. Angenommen, Sie haben 52 Pflegeheime nach dem Zufallsprinzip auf Sturzraten untersucht. Die Häuser 27, 34 und 52 sind chronisch unterbesetzt und weisen immer überdurchschnittlich viele Stürze auf. Diese Häuser schieben meinen Schwanz in Richtung und sind nicht auf einen Stichprobenfehler zurückzuführen.
Possum-Pie

1
@Possum Pie Was die Daten sind, ist hier zweitrangig, aber Sie geben an verschiedenen Stellen unterschiedliche Signale. Sie sprechen hier von mehreren Pflegeheimen - in Ihrer Frage geben Sie jedoch "in einem Pflegeheim" an. Es hilft nicht, wenn man sich nicht einmal über zufällige Details im Klaren ist.
Nick Cox

@ Nick Cox Sorry, ich habe es geklärt. Anzahl der Stürze / Jahr in einer Stichprobe von 52 Pflegeheimen
Possum-Pie

1

Aus praktischen Gründen werden zugrunde liegende Prozesse wie dieser normalerweise durch Normalverteilung fein angenähert, ohne dass jemand eine Augenbraue hochzieht.

Wenn Sie jedoch pedantisch sein möchten, kann der zugrunde liegende Prozess in diesem Fall nicht normal verteilt werden, da er keine negativen Werte erzeugen kann (die Anzahl der Stürze kann nicht negativ sein). Es würde mich nicht wundern, wenn es sich tatsächlich um eine bimodale Verteilung mit einem zweiten Peak nahe Null handeln würde.


Es ist bimodal mit Modi bei 4 Stürzen und 13 Stürzen. Es wurden keine Stürze gemeldet.
Possum-Pie,
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.