Warum eine T-Statistik die Daten benötigt, um einer Normalverteilung zu folgen

11

Ich habe mir dieses Notizbuch angesehen und bin verwirrt über diese Aussage:

Wenn wir über Normalität sprechen, meinen wir, dass die Daten wie eine Normalverteilung aussehen sollten. Dies ist wichtig, da sich mehrere statistische Tests darauf stützen (z. B. t-Statistik).

Ich verstehe nicht, warum eine T-Statistik die Daten benötigt, um einer Normalverteilung zu folgen.

In der Tat sagt Wikipedia dasselbe:

Die t-Verteilung des Schülers (oder einfach die t-Verteilung) ist ein Mitglied einer Familie kontinuierlicher Wahrscheinlichkeitsverteilungen, die bei der Schätzung des Mittelwerts einer normalverteilten Population auftritt

Ich verstehe jedoch nicht, warum diese Annahme notwendig ist.

Nichts aus seiner Formel weist mich darauf hin, dass die Daten einer Normalverteilung folgen müssen:

Ich habe ein bisschen nach seiner Definition gesucht, aber ich verstehe nicht, warum die Bedingung notwendig ist.

mathematical-statistics normal-distribution

— Oktavian
quelle

17

Die Informationen, die Sie benötigen, befinden sich im Abschnitt "Charakterisierung" der Wiki-Seite . Eine Verteilung mit Freiheitsgraden kann als Verteilung der Zufallsvariablen so dass $t$ $\nu$ $T$ Wobei eine Standardnormalverteilung Zufallsvariable und ist ein Zufallsvariable mit Freiheitsgraden . Außerdem müssen und unabhängig sein. Wenn also und der obigen Definition folgen, können Sie zu einer Zufallsvariablen mit einer Verteilung gelangen.

T = \frac{Z}{\sqrt{V / ν}},

$T = \dfrac{Z}{\sqrt{V/\nu}} \,,$

Z

$Z$

V

$V$

χ^{2}

$\chi^2$

ν

$\nu$

Z

$Z$

V

$V$

Z

$Z$

V

$V$

t

$t$

Angenommen, ist gemäß einer Verteilung verteilt . Sei Mittelwert und Varianz . Sei der Stichprobenmittelwert und die Stichprobenvarianz. Wir werden uns dann die Formeln ansehen: $X_1, X_2, \dots, X_n$ $F$ $F$ $\mu$ $\sigma^2$ $\bar{X}$ $S^2$

\frac{\bar{X} - μ}{S / \sqrt{n}} = \frac{\frac{\bar{X} - μ}{σ / \sqrt{n}}}{\sqrt{\frac{(n - 1) S^{2}}{(n - 1) σ^{2}}}} .

$\dfrac{\bar{X} - \mu}{S/\sqrt{n}} = \dfrac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}} \,.$

Wenn die Normalverteilung bezeichnet, dann ist und damit $F$ $\bar{X} \sim N(\mu, \sigma^2/n)$ . Zusätzlich ist $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ nachCochrans Satz. Schließlich wird durch eine Anwendung vonBasu Theorem, undsind unabhängig. Dies impliziert dann, dass die resultierende Statistik eineVerteilung mitFreiheitsgraden aufweist. $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ $\bar{X}$ $S^2$ $t$ $n-1$

Wenn die ursprüngliche Datenverteilung nicht normal war, ist die genaue Verteilung des Zählers und des Nenners nicht die Standardnormalen bzw. , und daher hat die resultierende Statistik keine Verteilung. $F$ $\chi^2$ $t$

— Greenparker
quelle

3

Ich fand es immer sehr interessant, wie viel mathematische Technologie in diese grundlegenden Ergebnisse der mathematischen Statistik fließt.

— Matthew Drury

3

\bar{X}

$\bar{X}$

S

$S$

χ^{2}

$\chi^2$

2

Ich denke, es kann einige Verwechslungen zwischen der Statistik und ihrer Formel im Vergleich zur Verteilung und ihrer Formel geben. Sie können die t-Statistikformel auf jeden Datensatz anwenden und eine "t-Statistik" erhalten. Diese Statistik wird jedoch nicht gemäß der Schüler-t-Verteilung verteilt, es sei denn, die Daten stammen aus einer Normalverteilung (oder zumindest nicht) Ich vermute, dass nicht normale Verteilungen keine Student-t-Verteilung erzeugen, wenn die t-Statistikformel angewendet wird, aber ich bin mir nicht sicher). Der Grund dafür ist einfach, dass die Verteilung der t-Statistik aus der Verteilung der Daten berechnet wird, die sie generiert haben. Wenn Sie also eine andere zugrunde liegende Verteilung haben, ist nicht garantiert, dass Sie dieselbe Verteilung für abgeleitete Statistiken haben.

— Akkumulation
quelle