Wie vermitteln Sie einem Nicht-Statistiker die Schönheit des zentralen Grenzwertsatzes?


33

Mein Vater ist Mathematikbegeisterter, interessiert sich aber nicht besonders für Statistik. Es wäre ordentlich zu versuchen , einige der wunderbaren Teile der Statistik zu veranschaulichen, und das CLT ist ein erstklassiger Kandidat. Wie würden Sie die mathematische Schönheit und Wirkung des zentralen Grenzwertsatzes einem Nicht-Statistiker vermitteln?


Ein schneller Gedanke ist, die 68-95-99.7-Regel ( en.wikipedia.org/wiki/68-95-99.7_rule ) irgendwie in die Diskussion einzubeziehen .
9.

Antworten:


16

Was ich am meisten an CLT geliebt habe, sind Fälle, in denen es nicht anwendbar ist - dies gibt mir die Hoffnung, dass das Leben ein bisschen interessanter ist, als es die Gauß-Kurve nahelegt. Zeigen Sie ihm also die Cauchy-Verteilung.


Welche Beziehung besteht zwischen der Cauchy-Verteilung und der CLT oder dem Fehlen der CLT?
Robin Girard


Das CLT erfordert, dass die MGFs in einer Nachbarschaft von 0 existieren. Die Cauchy-Verteilung hat diese Eigenschaft nicht. CLT Win. Cauchy erfüllt nicht einmal die schwächeren Anforderungen einer stärkeren Version von CLT, bei der nur der Mittelwert und die Varianz erforderlich sind. Die Cauchy-Verteilung zeigt, dass der Mittelwert vorhanden sein muss, damit die CLT gültig ist. Das CLT versagt nicht.
Baltimark

@ Baltimark Du hast meinen Beitrag falsch verstanden - es ist offensichtlich, dass Cachy aufgrund von CLT-Annahmen nicht von CLT abgedeckt wird, da es sonst unmöglich wäre, CLT zu beweisen. Ich habe dieses Beispiel gegeben, weil die Leute glauben, dass CLT für alle Distributionen funktioniert. wahrscheinlich ist "fail" kein perfektes wort, aber ich denke immer noch nicht, dass es ein grund für downvote ist. Ok, ich habe es sogar in nicht zutreffend geändert.

Ich bevorzuge deine Bearbeitung. Die Cauchy-Distribution ist definitiv sehr cool.
Baltimark

14

Um den CLT voll zu würdigen, sollte er gesehen werden.

Daher der Begriff der Bohnenmaschine und viele Youtube- Videos zur Veranschaulichung.


Ich dachte, es zeigt die Binomialverteilung; Ich glaube nicht, dass seine Asymptoten eine direkte Verbindung zu CLT haben.

2
Bean Machine vom Autor des Pakets Animation ... yihui.name/en/wp-content/uploads/2010/07/…
Robin Girard

1
@mbq werfen Sie einen Blick auf en.wikipedia.org/wiki/…
Robin Girard

@robin Ich habe darüber geschrieben, was ist das Problem?

1
@ShreevatsaR Der Punkt ist, dass eine gute Illustration den "Kern" von etwas zeigen sollte, und (zumindest IMO) der "Kern" von CLT liegt in der Tatsache, dass viele Variablen aus verschiedenen seltsamen Verteilungen zu einem Gaußschen verschmolzen werden, nicht dass dies der Fall ist nur eine Grenze einer Binomialverteilung.

7

Wenn Mathematiker über Wahrscheinlichkeit sprechen, beginnen sie oft mit einer bekannten Wahrscheinlichkeitsverteilung und sprechen dann über die Wahrscheinlichkeit von Ereignissen. Der wahre Wert des zentralen Grenzwertsatzes ist, dass wir in Fällen, in denen wir die wahre Verteilung nicht kennen, die Normalverteilung als Näherung verwenden können. Sie könnten Ihrem Vater eine Frage zur Standardstatistik stellen (aber als mathematisch formuliert), wie hoch die Wahrscheinlichkeit ist, dass der Mittelwert einer Stichprobe größer als ein bestimmter Wert ist, wenn die Daten aus einer Verteilung mit dem Mittelwert mu und sd sigma stammen Er geht von einer Verteilung aus (von der Sie dann sagen, dass wir sie nicht kennen) oder sagt, dass er die Verteilung kennen muss. Dann können Sie zeigen, dass wir die Antwort in vielen Fällen mit dem CLT approximieren können.

Um Mathematik mit Statistiken zu vergleichen, verwende ich gerne den Mittelwertsatz der Integration (der besagt, dass für ein Integral von a nach b ein Rechteck von a nach b mit der gleichen Fläche existiert und die Höhe des Rechtecks ​​der Durchschnitt von ist) Kurve). Der Mathematiker betrachtet diesen Satz und sagt: "Cool, ich kann eine Integration verwenden, um einen Durchschnitt zu berechnen", während der Statistiker denselben Satz betrachtet und sagt: "Cool, ich kann einen Durchschnitt verwenden, um ein Integral zu berechnen".

Tatsächlich habe ich in meinem Büro Kreuzstich-Wandbehänge mit dem Mittelwertsatz und dem CLT (zusammen mit dem Bayes-Satz).


Hmmm. Ich würde denken, dass die meisten Mathematiker die MVT verwenden, um ein Integral als Rechteck anzunähern.
Kardinal

5

Ich möchte die Variation der Stichproben und im Wesentlichen den zentralen Grenzwertsatz anhand einer "in-class" -Übung demonstrieren. Jeder in der Klasse von etwa 100 Schülern schreibt sein Alter auf ein Blatt Papier. Alle Papierstücke haben dasselbe Format und werden nach Berechnung des Durchschnitts auf dieselbe Weise gefaltet. Dies ist die Bevölkerung und ich berechne das Durchschnittsalter. Dann wählt jeder Schüler nach dem Zufallsprinzip 10 Blätter Papier aus, schreibt das Alter auf und legt sie in die Tasche zurück. (S) er berechnet den Mittelwert und gibt den Beutel an den nächsten Schüler weiter. Schließlich haben wir 100 Stichproben von je 10 Schülern, die den Bevölkerungsdurchschnitt schätzen, den wir durch ein Histogramm und einige beschreibende Statistiken beschreiben können.

Wir wiederholen die Demonstration dieses Mal mit 100 "Meinungen", die einige Ja / Nein-Fragen aus jüngsten Umfragen wiederholen. Wenn die (britischen General-) Wahlen morgen stattfinden würden, würden Sie in Betracht ziehen, für die britische Nationale Partei zu stimmen. Die Schüler probieren 10 dieser Meinungen aus.

Am Ende haben wir die Variation der Stichproben, den zentralen Grenzwertsatz usw. sowohl mit kontinuierlichen als auch mit binären Daten gezeigt.


4

Das Herumspielen mit dem folgenden Code, das Variieren des Werts Mund das Auswählen von anderen Verteilungen als der Uniform kann eine lustige Illustration sein.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

Wenn Sie Stata verwenden, können Sie den Befehl -clt- verwenden, mit dem Diagramme von Stichprobenverteilungen erstellt werden

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


Sieht so aus, als könnte es sehr schön sein, aber ich habe gerade versucht, es in Stata 11.1 (dh der neuesten Version) zu installieren und auszuführen, und es gibt mir weiterhin eine r (3000) -Fehler, wenn ich im Dialogfeld auf "Fertig" klicke, auch wenn ich Folgendes tippe: Version 6: clt-.
am

2

Nach meiner Erfahrung ist das CLT weniger nützlich als es scheint. Man weiß in der Mitte eines Projekts nie, ob n groß genug ist, um die Näherung an die Aufgabe anzupassen. Und für statistische Tests hilft Ihnen das CLT, den Fehler vom Typ I zu schützen, trägt jedoch wenig dazu bei, den Fehler vom Typ II in Schach zu halten. Beispielsweise kann der t-Test für große n eine beliebig niedrige Leistung haben, wenn die Datenverteilung extrem verzerrt ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.