Wie führe ich einen T-Test mit großen Proben durch?


11

Ich habe zwei Populationen, eine mit N = 38.704 (Anzahl der Beobachtungen) und eine mit N = 1.313.662. Diese Datensätze haben ~ 25 Variablen, alle kontinuierlich. Ich nahm jeweils den Mittelwert in jedem Datensatz und berechnete die Teststatistik unter Verwendung der Formel

t = mittlere Differenz / Standardfehler

Das Problem ist der Freiheitsgrad. Durch die Formel df = N1 + N2-2 haben wir mehr Freiheit, als die Tabelle verarbeiten kann. Irgendwelche Vorschläge dazu? So überprüfen Sie die t-Statistik hier. Ich weiß, dass der T-Test für die Handhabung von Proben verwendet wird, aber was ist, wenn wir dies auf große Proben anwenden?

Antworten:


20

chl erwähnte bereits die Falle mehrerer Vergleiche, wenn gleichzeitig 25 Tests mit demselben Datensatz durchgeführt wurden. Eine einfache Möglichkeit, dies zu handhaben, besteht darin, den p-Wert-Schwellenwert anzupassen, indem Sie ihn durch die Anzahl der Tests dividieren (in diesem Fall 25). Die genauere Formel lautet: Angepasster p-Wert = 1 - (1 - p-Wert) ^ (1 / n). Die beiden unterschiedlichen Formeln leiten jedoch fast den gleichen angepassten p-Wert ab.

Es gibt ein weiteres großes Problem bei Ihrer Hypothesentestübung. Sie werden mit Sicherheit auf einen Fehler vom Typ I (falsch positiv) stoßen, bei dem Sie einige wirklich triviale Unterschiede aufdecken, die bei 99,9999% äußerst signifikant sind. Dies liegt daran, dass Sie bei einer Stichprobe mit einer so großen Größe (n = 1.313.662) einen Standardfehler erhalten, der sehr nahe bei 0 liegt. Dies liegt daran, dass die Quadratwurzel von 1.313.662 = 1.146 ist. Sie teilen also die Standardabweichung durch 1.146. Kurz gesagt, Sie erfassen winzige Unterschiede, die möglicherweise völlig unerheblich sind.

Ich würde vorschlagen, dass Sie sich von diesem Hypothesentest-Framework entfernen und stattdessen eine Effektgrößenanalyse durchführen. In diesem Rahmen ist das Maß für die statistische Entfernung die Standardabweichung. Im Gegensatz zum Standardfehler wird die Standardabweichung durch die Größe der Probe nicht künstlich verkleinert. Dieser Ansatz gibt Ihnen einen besseren Überblick über die wesentlichen Unterschiede zwischen Ihren Datensätzen. Die Effektgröße konzentriert sich auch viel stärker auf das Konfidenzintervall um die mittlere durchschnittliche Differenz, was viel informativer ist als der Hypothesentest, der sich auf die statistische Signifikanz konzentriert, die oft überhaupt nicht signifikant ist. Hoffentlich hilft das.


4
+1 für die Hervorhebung der Schlüsselideen: (1) Wir können garantieren, dass sich die Mittelwerte unterscheiden, wenn die Datensätze so groß sind, und (2) eine andere Analyse ist wahrscheinlich angemessener und nützlicher. Da wir jedoch nicht über den Zweck der Analyse Bescheid wissen, sollten wir vorsichtig sein, wenn wir spezifische Empfehlungen aussprechen.
whuber

Vielen Dank, Gaetan. Ich denke, ich nehme davon ab, dass die Standardabweichung ein besseres Maß ist, wenn Sie große Proben wie meine haben. Bitte lassen Sie mich wissen, wenn ich etwas verpasst habe.
Ayush Biyani

1
Ayush ... Du hast recht. Das ist es im Grunde. Dies liegt daran, dass Ihr Standardfehler (aufgrund der großen Stichprobengröße) so klein wird. Dies wiederum überschätzt den statistischen Abstand zwischen Ihrer Test- und Kontrollgruppe. Und führt letztendlich dazu, dass Sie auf einen Fehler vom Typ I stoßen (decken Sie einen Unterschied auf, der so gering ist, dass er unerheblich ist). Dies ist ein häufiges Problem beim Testen von Hypothesen mit großen Stichproben.
Sympa

14

Die t- Verteilung des Schülers kommt der Standardnormalverteilung immer näher, wenn die Freiheitsgrade größer werden. Mit 1313662 + 38704 - 2 = 1352364 Freiheitsgraden ist die t- Verteilung nicht von der Standardnormalverteilung zu unterscheiden, wie im Bild unten zu sehen ist (es sei denn, Sie befinden sich in den extremen Schwänzen und sind daran interessiert Unterscheidung von absolut winzigen p- Werten von noch winzigeren ). Sie können also die Tabelle für die Standardnormalverteilung anstelle der Tabelle für die t- Verteilung verwenden .

Alt-Text


Leute, danke für die Antwort. Ich muss Daten analysieren. Wie hänge ich Daten daran an. Es gibt viel zu fragen Leute .. Danke in Erwartung. Ich erwarte eine schnelle Antwort.
Ayush Biyani

4
Huh? Sie sagten in der Frage, Sie hätten die t-Statistik bereits berechnet, und chl hat einen Beispiel-R-Code bereitgestellt. Was willst du noch? Ich bin mir übrigens nicht sicher, ob Sie das Recht haben, eine sofortige Antwort zu erwarten oder anzufordern. Wir werden dafür nicht bezahlt, wissen Sie.
Onestop

1
@ayush Für Ihre vorhergehende Frage gebe ich eine vollständige Antwort auf Ihre Frage (IMHO) - dann habe ich einige Kommentare zu Ihren Kommentaren gegeben, bevor ich aufhörte, als ich dachte, Sie würden nach einer anderen Frage fragen, die hier nicht zum Zweck der Kommentaroption ist . Daher würde ich vorschlagen, dass Sie entweder klar angeben, ob sich Ihre Frage auf theoretische Überlegungen oder angewandte Datenanalysen bezieht (im letzteren Fall geben Sie uns ein reproduzierbares Beispiel) oder Ihre Fragen trennen. Übrigens haben Sie immer noch die Möglichkeit, Antworten zu akzeptieren, die Sie nützlich finden (wiederum bezüglich Ihrer ursprünglichen Frage, nicht der folgenden Kommentare).
Chl

2
@ayush Ah, und mir ist nur klar, dass Sie niemals eine der Antworten abstimmen, die Ihnen gegeben wurden (obwohl Sie jetzt genug Repräsentanten haben).
Chl

@ chl-- yeah..even ich erkenne diesen Fehler von mir und werde dies sicher in den kommenden Beiträgen korrigieren .. Danke für den Hinweis ..
Betrachten Sie

10

Die Verteilung tendiert zur Verteilung (Gauß-Verteilung), wenn groß ist (tatsächlich sind sie, wenn , fast identisch, siehe das Bild von @onestop). In Ihrem Fall würde ich sagen, dass SEHR groß ist, so dass Sie nur einen Test verwenden können. Infolge der Stichprobengröße werden SEHR kleine Unterschiede als signifikant deklariert. Es lohnt sich also, sich zu fragen, ob diese Tests (mit dem vollständigen Datensatz) wirklich interessant sind.z n n > 30 n ztznn>30nz

Nur um sicherzugehen, dass Ihr Datensatz 25 Variablen enthält, führen Sie 25 Tests durch? Wenn dies der Fall ist, müssen Sie wahrscheinlich mehrere Vergleiche korrigieren, um die Fehlerrate von Typ I nicht zu erhöhen (siehe verwandten Thread auf dieser Site).

Übrigens, die R-Software gibt Ihnen die gesuchten p-Werte, ohne sich auf Tabellen verlassen zu müssen:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.