Warum nicht die T-Verteilung verwenden, um den Mittelwert zu schätzen, wenn die Stichprobe groß ist?


17

Grundlegende Statistikkurse schlagen häufig vor, eine Normalverteilung zu verwenden, um den Mittelwert eines Populationsparameters zu schätzen, wenn die Stichprobengröße n groß ist (typischerweise über 30 oder 50). Die Student-T-Verteilung wird für kleinere Stichprobengrößen verwendet, um die Unsicherheit der Standardabweichung der Stichprobe zu berücksichtigen. Wenn die Stichprobengröße groß ist, liefert die Standardabweichung der Stichprobe gute Informationen zur Standardabweichung der Grundgesamtheit, sodass eine Schätzung der Normalverteilung möglich ist. Ich verstehe das.

Aber warum sollten Sie eine Schätzung verwenden, wenn Sie Ihr Konfidenzintervall genau ermitteln können? Was nützt die Normalverteilung, unabhängig von der Stichprobengröße, wenn es sich nur um eine Schätzung handelt, die Sie mit der T-Verteilung genau erhalten können?


@ Glen_b Ja, das wären Intervallschätzer. Zu diesen Intervallen: "Sie müssen die t-Verteilungstabelle verwenden, wenn Arbeitsprobleme auftreten, bei denen die Populationsstandardabweichung (σ) nicht bekannt ist und die Stichprobengröße klein ist (n <30)" (aus web.pdx.edu/~stipakb/ herunterladen / PA551 / NormalVersusTdistribution.doc). Warum wird die T-Verteilung nicht immer verwendet, wenn die Populationsstandardabweichung nicht bekannt ist (auch wenn n> 30 ist)?
Pertinax

Antworten:


15

Um den Zusammenhang mit dem Titel zu verdeutlichen, verwenden wir die t-Verteilung nicht, um den Mittelwert (zumindest im Sinne einer Punktschätzung) zu schätzen, sondern um ein Intervall dafür zu konstruieren.

Aber warum sollten Sie eine Schätzung verwenden, wenn Sie Ihr Konfidenzintervall genau ermitteln können?

Das ist eine gute Frage (solange wir nicht zu sehr auf "genau" bestehen, da die Annahmen, dass es genau t-verteilt ist, nicht wirklich zutreffen).

"Sie müssen die t-Verteilungstabelle verwenden, wenn Arbeitsprobleme auftreten, wenn die Populationsstandardabweichung (σ) nicht bekannt ist und die Stichprobengröße klein ist (n <30)."

Warum wird die T-Verteilung nicht immer verwendet, wenn die Populationsstandardabweichung nicht bekannt ist (auch wenn n> 30 ist)?

Ich halte den Rat allenfalls für irreführend. In einigen Situationen sollte die t-Verteilung immer noch verwendet werden, wenn die Freiheitsgrade viel größer sind.

Wo das Normale eine vernünftige Annäherung ist, hängt von einer Vielzahl von Dingen ab (und hängt so von der Situation ab). Da es jedoch (mit Computern) überhaupt nicht schwierig ist, nur das t , selbst wenn die df sehr groß sind, müsste man sich fragen, warum man sich bei n = 30 Sorgen machen muss, etwas anderes zu tun.

Wenn die Stichprobengröße sehr groß ist, macht es keinen merklichen Unterschied für das Konfidenzintervall, aber ich denke nicht, dass n = 30 immer ausreichend nahe bei „sehr groß“ liegt.


tn


2
n=30α=5%

1
@ StéphaneLaurent Für die meisten Zwecke sollte es bei 5% in Ordnung sein, aber solche Urteile sind sehr individuell. Es gibt Situationen - ich bin heute nur auf eine gestoßen -, in denen diese Fehlerquote möglicherweise ausreicht, um eine Rolle zu spielen.
Glen_b

2
@ StéphaneLaurent Möglicherweise erhalten Sie von Johnson, VE (2013) einen anständigen Einblick. Überarbeitete Standards für statistische Nachweise . Verfahren der National Academy of Sciences , 110 (48): 19313–19317. Dieser Artikel passt in die post- Warum die meisten veröffentlichten Forschungsergebnisse falsche Kritik der Forschung sind ( a la wie Wissenschaft
Alexis

4
@ StéphaneLaurent Ihr Artikel beantwortet meine Frage. Für die Aufzeichnung eine grobe Übersetzung seiner Schlussfolgerung: "Die Verwendung der Normalverteilung als Annäherung an die t-Verteilung von Student ist ausschließlich das Produkt der technologischen Beschränkungen des 20. Jahrhunderts. Diese Beschränkungen sind mit moderner Statistiksoftware verschwunden, und es gibt keine mehr einen Grund, diese nicht konservativen Näherungen zu verwenden ".
Pertinax

2
@TheThunderChimp Vorsichtsmaßnahme: Wenn die Populationsvarianz bekannt ist (z. B. Schätzung des Populationsanteils - Mittelwert einer dichotomen Variablen), ist die Standardnormale ( z ) und nicht die t- Verteilung angemessen.
Alexis

7

Es ist ein historischer Anachronismus. Es gibt viele davon in der Statistik.

Wenn Sie keinen Computer hatten, war es schwierig, die T-Distribution zu verwenden, und es war viel einfacher, eine normale Distribution zu verwenden. Sobald die Stichprobengröße groß wird, werden die beiden Verteilungen ähnlich (wie groß "groß" ist, ist eine andere Frage).


1
Das scheint eine ziemlich flache Antwort auf eine tiefere Frage zu sein.
Alexis

2
Nicht sicher was du meinst. Glaubst du nicht, dass das der Grund ist? (Die am besten bewertete Antwort macht den gleichen Punkt - obwohl beredter und ausführlicher.)
Jeremy Miles

1
Ich habe herabgestimmt, weil Ihre Antwort zu mir liest, wie: Weil Geschichte. Kurze Zusammenfassung Ihrer Frage.
Alexis

2
Vielen Dank, dass Sie mich informiert haben. Es ist besser als eine anonyme Ablehnung, für die ich den Grund nicht kannte.
Jeremy Miles

3
In der Vergangenheit "verwendete" man diese Verteilungen, indem man Werte in Tabellen nachschlug. Die einzige Möglichkeit, eine Normalverteilung einfacher zu verwenden, wäre gewesen, dass man nicht die Spalte auswählen musste, die den Freiheitsgraden entspricht. Das ist kaum ein Problem. Was die Nutzung einschränkte, war, dass es irgendwann wenig Sinn machte, die Tabellen auf große Freiheitsgrade zu erweitern: Die Bücher würden zu groß.
Whuber

1

ex2n


1
Bei welchen Größen tun die numerischen Fehler bei der Schätzung t die Gewinne verwenden , es überwiegt?
Jona

2
Mit Sicherheit können Sie die t-Werte mit beliebiger Genauigkeit berechnen, sodass sie genauso genau sind wie die Mengen, mit denen Sie sie vergleichen.
Neil G

Mit anderen Worten, der "genaue" t-Wert ist nicht "genau", und innerhalb des Approximationsfehlers ist der Wert derselbe wie der CDF-Wert für die Standardnormale. Ich bin mir nicht sicher, ob dies eine verlässliche Faustregel ist.
Shadowtalker

2
25.9325×1016

1
Whuber, du hast recht. Ich habe "numerischer Fehler" falsch verwendet. Ich habe alle Fehler gemeint, die mit Zahlen zu tun haben: numerische Approximation der Integrale, numerische Fehler für das Arbeiten mit endlicher Genauigkeit und numerische Fehler aufgrund von Kürzungen. Wenn man mit unendlicher Präzision arbeiten könnte, gäbe es keinen
Grund
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.