T-Test für nicht normal, wenn N> 50?


77

Vor langer Zeit habe ich gelernt, dass eine normale Verteilung notwendig ist, um einen T-Test mit zwei Stichproben durchzuführen. Heute erzählte mir eine Kollegin, dass für N> 50 keine Normalverteilung notwendig sei. Ist das wahr?

Wenn ja, liegt das am zentralen Grenzwertsatz?


3
Verwandte Frage mit einer sehr guten Antwort von Glen_b stats.stackexchange.com/questions/121852/…
Tim

Antworten:


82

Normalitätsannahme eines t-Tests

Stellen Sie sich eine große Population vor, aus der Sie viele verschiedene Proben einer bestimmten Größe entnehmen können. (In einer bestimmten Studie sammeln Sie im Allgemeinen nur eine dieser Stichproben.)

Der t-Test geht davon aus, dass die Mittelwerte der verschiedenen Stichproben normal verteilt sind. Es wird nicht davon ausgegangen, dass die Bevölkerung normal verteilt ist.

Nach dem zentralen Grenzwertsatz nähern sich Stichproben einer Population mit endlicher Varianz einer Normalverteilung an, unabhängig von der Verteilung der Population. Faustregeln besagen, dass die Stichprobenmittel im Grunde genommen normal verteilt sind, solange die Stichprobengröße mindestens 20 oder 30 beträgt. Damit ein t-Test für eine Stichprobe mit kleinerer Größe gültig ist, müsste die Populationsverteilung ungefähr normal sein.

Der t-Test ist für kleine Stichproben aus nicht normalen Verteilungen ungültig, gilt jedoch für große Stichproben aus nicht normalen Verteilungen.

Kleine Stichproben aus nicht normalen Verteilungen

Wie Michael unten bemerkt, hängt die Stichprobengröße, die für die Verteilung der Mittel zur Annäherung an die Normalität benötigt wird, vom Grad der Nicht-Normalität der Bevölkerung ab. Für ungefähr normale Verteilungen benötigen Sie nicht so große Stichproben wie für eine nicht normale Verteilung.

Hier sind einige Simulationen, die Sie in R ausführen können, um ein Gefühl dafür zu bekommen. Zunächst sind hier einige Bevölkerungsverteilungen aufgeführt.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Als nächstes folgen einige Simulationen von Stichproben aus der Populationsverteilung. In jeder dieser Zeilen ist "10" die Stichprobengröße, "100" die Anzahl der Stichproben und die nachfolgende Funktion gibt die Populationsverteilung an. Sie erzeugen Histogramme der Probenmittel.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Damit ein t-Test gültig ist, sollten diese Histogramme normal sein.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Nutzen eines T-Tests

Ich muss feststellen, dass all das Wissen, das ich gerade vermittelt habe, etwas veraltet ist. Jetzt, wo wir Computer haben, können wir besser als T-Tests. Wie Frank bemerkt, möchten Sie Wilcoxon-Tests wahrscheinlich überall dort verwenden , wo Sie einen T-Test lernen konnten.


7
Gute Erklärung (+1). Ich möchte jedoch hinzufügen, dass die Stichprobengröße, die für die Verteilung der Mittel zur Annäherung an die Normalität erforderlich ist, vom Grad der Nichtnormalität der Bevölkerung abhängt. Für große Stichproben gibt es keinen Grund, einen t-Test einem Permutationstest vorzuziehen, der keine Annahmen über die Verteilungen macht.
Michael Lew

2
+1, obwohl, soweit ich weiß, t-test mäßigen Abweichungen von der Normalität ziemlich widersteht. Auch eine interessante Diskussion zu diesem Thema
nico

4
Gute Antwort, obwohl Sie ein kleines Detail übersehen haben: Die Verteilung der Daten muss eine endliche Varianz haben. Der T-Test ist hoffnungslos für den Vergleich des Ortsunterschieds zweier Cauchy-Verteilungen (oder eines Schülers mit 2 Freiheitsgraden), nicht weil er "nicht robust" ist, sondern weil für diese Verteilungen in der Stichprobe über die Mittelwerte hinaus zusätzliche relevante Informationen vorhanden sind und Standardabweichungen, die der t-Test wegwirft.
Wahrscheinlichkeitslogik

2
Darüber hinaus liefert der t-Test natürlich auch Konfidenzintervalle für den untersuchten Parameter. (immer noch wegen der zwei ersten Absätze, die die Frage direkt ansprechen, ich bin nur stark mit dem dritten nicht einverstanden)
Erik

6
T-Test erfordert Normalität der Bevölkerung. Dies ist eine Voraussetzung dafür, dass die t-Statistik eine t-Student-Verteilung aufweist. Wenn Sie keine normale Grundgesamtheit haben, können Sie die t-Statistik nicht als normale Standardvariable dividiert durch die Wurzel einer Chi-Quadrat-Variablen dividiert durch ihre Freiheitsgrade ausdrücken. Vielleicht möchten Sie damit sagen, dass der Test auch dann gültig sein kann, wenn einige Bedingungen zutreffen, z. B. nicht zu viel Versatz oder eine große Stichprobe, auch wenn die Grundgesamtheit nicht normal ist.
Toneloy

44

Der zentrale Grenzwertsatz ist weniger nützlich, als man in diesem Zusammenhang annehmen könnte. Erstens weiß man, wie bereits erwähnt, nicht, ob die aktuelle Stichprobengröße "groß genug" ist. Zweitens geht es bei der CLT mehr um das Erreichen des gewünschten Fehlers vom Typ I als um den Fehler vom Typ II. Mit anderen Worten, der t-Test kann in Bezug auf die Leistung nicht wettbewerbsfähig sein. Deshalb ist der Wilcoxon-Test so beliebt. Wenn die Normalität gilt, ist sie zu 95% so effizient wie der t-Test. Wenn die Normalität nicht zutrifft, kann dies beliebig effizienter sein als der t-Test.


7
(+1) Willkommen auf der Website, die ich freue, dass Sie gefunden haben. Ich freue mich auf Ihre Teilnahme hier.
Kardinal

4
(+1) Guter Punkt zum Wilcoxon.
Whuber

18

Siehe meine vorherige Antwort auf eine Frage zur Robustheit des T-Tests .

Insbesondere empfehle ich, mit dem Applet onlinestatsbook herumzuspielen .

Das folgende Bild basiert auf dem folgenden Szenario:

  • Nullhypothese ist wahr
  • ziemlich starke Schiefe
  • gleiche Verteilung in beiden Gruppen
  • gleiche Varianz in beiden Gruppen
  • Stichprobengröße pro Gruppe 5 (dh viel weniger als 50 gemäß Ihrer Frage)
  • Ich habe den 10.000-Simulations-Knopf ungefähr 100 Mal gedrückt, um über eine Million Simulationen zu erhalten.

Die erhaltene Simulation zeigt, dass anstelle von 5% Typ-I-Fehlern nur 4,5% Typ-I-Fehler auftraten.

Ob Sie dies für robust halten, hängt von Ihrer Perspektive ab.

Bildbeschreibung hier eingeben


4
+1 Gute Punkte. Die Leistung des T-Tests mit verzerrten Alternativen kann sich jedoch erheblich verschlechtern (bis zu einem Punkt, an dem sie selbst bei großen Effektgrößen im Wesentlichen Null beträgt).
whuber

6

In meiner Erfahrung mit nur einem Stichproben-T-Test habe ich festgestellt, dass der Versatz der Verteilungen wichtiger ist als etwa die Kurtosis. Für nicht verzerrte, aber Verteilungen (bei 5 Freiheitsgraden, einer Tukey-h-Verteilung mit usw.) habe ich festgestellt, dass 40 Proben immer ausreichend waren, um eine empirische Typ-I-Rate in der Nähe des Nominalwerts zu erhalten . Wenn die Verteilung jedoch sehr verzerrt ist, benötigen Sie möglicherweise viel mehr Samples.h=0.24999

Angenommen, Sie haben im Lotto gespielt. Mit der Wahrscheinlichkeit Sie 100.000 Dollar und mit der Wahrscheinlichkeit verlieren Sie einen Dollar. Wenn Sie einen t-Test für die Null durchführen, bei dem die mittlere Rendite null ist, basierend auf einer Stichprobe von eintausend Ziehungen dieses Prozesses, glaube ich nicht, dass Sie die nominale Typ-I-Rate erreichen werden.p=1041p

edit : duh, pro @ whubers fang im kommentar hatte das von mir gegebene beispiel nicht den mittelwert null, also hat das testen auf den mittelwert null nichts mit dem typ zu tun den ich bewerte.

Da das Lotteriebeispiel häufig eine Stichprobenstandardabweichung von Null aufweist, werden die t-Test-Drosseln. Also gebe ich stattdessen ein Codebeispiel mit Goergs Lambert W x Gauß'scher Verteilung. Die Distribution, die ich hier verwende, hat einen Versatz von ungefähr 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Dieser Code gibt die empirische Ausschussrate bei nominal 0,05 für verschiedene Probengrößen an. Für eine Stichprobe der Größe 50 beträgt die empirische Rate 0,40 (!); für Probengröße 250 0,29; für Probengröße 1000 0,21; für Probengröße 2000 0,18. Offensichtlich leidet der Ein-Stichproben-T-Test unter einem Versatz.


Im Beispiel diskutieren Sie die Stärke des Tests, nicht seine Größe. Die Null scheint übrigens , für die die Verteilung entartet ist (ein Atom an einem einzelnen Punkt): Das ist ungefähr so ​​weit von der Normalität entfernt, wie man sein kann! p=0
whuber

1

Der zentrale Grenzwertsatz legt (unter den erforderlichen Bedingungen) fest, dass der Zähler der t-Statistik asymptotisch normal ist. Die t-Statistik hat auch einen Nenner. Um eine t-Verteilung zu haben, müsste der Nenner unabhängig und die Quadratwurzel eines Chi-Quadrats auf seiner df sein.

Und wir wissen, dass es nicht unabhängig sein wird (das kennzeichnet das Normale!)

Slutskys Theorem in Kombination mit der CLT würde Ihnen sagen, dass die t-Statistik asymptotisch normal ist (aber nicht unbedingt mit einer sehr nützlichen Rate).

Welcher Satz würde ergeben, dass die t-Statistik bei Nichtnormalität ungefähr t-verteilt ist und wie schnell sie eingeht? (Natürlich wird sich das t- irgendwann auch dem Normalwert annähern, aber wir gehen davon aus, dass die Annäherung an eine andere Annäherung besser ist als nur die normale Annäherung ...)


Wichtiger als die angebliche Pegel-Robustheit des (bei größeren Stichproben) ist jedoch die Auswirkung auf seine Leistung . Beachten Sie, dass die asymptotische relative Effizienz des t-Tests im Vergleich zum Wilcoxon-Mann-Whitney-Test (zum Beispiel) 0 sein kann (dh, wenn die Stichprobengröße größer wird, während die Effektgrößen, für die Sie den Schrumpfvorgang durchführen möchten, möglicherweise erheblich größere Stichproben erfordern) die gleiche Kraft haben wie eine offensichtliche Alternative).t

Während der t-Test in vielen Fällen eine schöne normal aussehende Nullverteilung hat, wenn groß genug ist, ist seine Leistung unter der Null nicht wirklich das, worum sich die Leute am meisten kümmern - es ist die Leistung unter der Alternative - und da ist es vielleicht nicht so toll, wenn es dir wichtig ist, die null in den fällen abzulehnen, in denen der effekt nicht so einfach zu erfassen ist.n


3
Obwohl wir möglicherweise nicht wissen, ob Stichprobenmittelwert und Varianz unabhängig sind, wissen wir immer, dass sie nicht korreliert sind . Dies liegt daran, dass der Stichprobenmittelwert eine Funktion der bivariaten Summen ist und die Stichprobenvarianz eine Funktion der bivariaten Differenzen (diese werden als "U-Statistik" bezeichnet) und wir haben , solange die Verteilung "homogen" ist , was Teil der Problemstellung ist . xi+xjxixjV a r ( x i ) = v a r ( x j )cov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
Wahrscheinlichkeitsrechnung

1
Leider ist die Unterscheidung zwischen unkorreliert und unabhängig relevant, wenn wir mit einer t-Verteilung enden wollen.
Glen_b

0

Ja, der zentrale Grenzwertsatz sagt uns, dass dies wahr ist. Solange Sie extrem schwerfällige Merkmale vermeiden, ist die Nicht-Normalität bei mittelgroßen bis großen Stichproben kein Problem.

Hier ist eine hilfreiche Übersicht.

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Der Wilcoxon-Test (von anderen erwähnt) kann eine schreckliche Leistung haben, wenn die Alternative keine Ortsverschiebung der ursprünglichen Verteilung ist. Darüber hinaus ist die Art und Weise, wie Unterschiede zwischen Verteilungen gemessen werden, nicht transitiv.


Interessante Punkte zum Wilcoxon. Der t-Test weist jedoch ähnliche Schwierigkeiten auf: Besonders schlecht ist es, Verschiebungen zu erkennen, die mit einer erhöhten Varianz einhergehen. Das bisschen über Transitivität scheint im gegenwärtigen Kontext hauptsächlich eine Neugier zu sein; Es ist schwer zu erkennen, wie wichtig es für den ursprünglichen Hypothesentest oder dessen Interpretation ist. (Aber vielleicht könnte Intransitivität in einer ANOVA- oder Mehrfachvergleichsumgebung wichtig werden.)
whuber

Der ungleiche Varianz-T-Test (der in einigen Softwareprogrammen standardmäßig verwendet wird) hat kein Problem mit der Heteroskedastizität.
Gast

In Bezug auf die Transitivität; Durch die Angabe der Stichprobenmittelwerte oder der Mittelwertunterschiede (was bei einem T-Test-Ansatz natürlich ist) erhält der Leser etwas, das er berücksichtigen kann, wenn er Stichproben aus anderen Populationen entnimmt. Die Nicht-Transitivität des Wilcoxon-Tests bedeutet, dass dieser Ansatz kein solches Analogon aufweist. Die Verwendung von Datenreihen ist ein sehr begrenzter Ansatz.
Gast

1
(1) Der Satterthwaite-Welch-Test (ungleiche Varianz) überwindet nicht den von mir genannten Leistungsverlust (obwohl er ein wenig helfen kann). (2) Ich denke, Sie sind extrem darin, Ränge als "begrenzt" zu bezeichnen. In seiner Antwort bezog sich @Frank Harrell auf Studien, die zeigten, wie der Wilcoxon-Test in vielen Situationen eine hohe Effizienz bewahrt: Dies zeigt, dass die Verwendung der Ränge im Vergleich zu t-Tests sowohl effektiv als auch flexibler und nicht eingeschränkter ist.
Whuber

(1) Nein, aber es gibt die richtige Typ-I-Fehlerrate in moderaten bis großen Stichproben. (2) Danke, aber ich bin mit Respekt anderer Meinung. Die Verwendung von t-Tests über Wilcoxon erleichtert die Überbrückung der Lücke zwischen dem Testen und der Verwendung von Konfidenzintervallen. Wenn man nur testen möchte und nie über die beiden Gruppen einer Studie hinausschaut, hat Wilcoxon natürlich Situationen, in denen es gut funktioniert. Aber oft möchten wir nicht nur testen und den Benutzern helfen, die Ergebnisse auf andere Situationen zu übertragen. Der Wilcoxon-Test ist dann nicht hilfreich.
Gast

0

Über die Verwendung des Wilcoxon-Mann-Whitney-Tests als Alternative empfehle ich die Arbeit Der Wilcoxon-Man-Whitney-Test unter die Lupe genommen

Als Mittelwert- oder Median-Test kann der Wilcoxon-Mann-Whitney-Test (WMW) in Bezug auf Abweichungen vom reinen Verschiebungsmodell schwer unempfindlich sein.

Dies sind die Empfehlungen der Autoren des Papers:

Die Rangtransformation kann Mittelwerte, Standardabweichungen und Schiefen der beiden Stichproben unterschiedlich verändern. Die einzige Situation, in der die Rangtransformation garantiert einen vorteilhaften Effekt erzielt, ist, wenn die Verteilungen identisch sind und die Stichprobengrößen gleich sind. Bei Abweichungen von diesen eher strengen Annahmen sind die Auswirkungen der Rangtransformation auf Stichprobenmomente nicht vorhersehbar. In der Simulationsstudie der Arbeit wurde der WMW-Test mit dem Fligner-Policello-Test (FP), dem Brunner-Munzel-Test (BM), dem Zwei-Stichproben-T-Test (T), dem Welch-U-Test (U) verglichen. und der Welch U-Test auf Rängen (RU). Die vier rangbasierten Tests (WMW, FP, BM und RU) verliefen ähnlich, obwohl der BM-Test häufig etwas besser war als die anderen. Wenn die Stichprobengrößen gleich waren, Die parametrischen Tests (T und U) waren den rangbasierten Tests unter der Nullhypothese gleicher Mittelwerte überlegen, jedoch nicht unter der Nullhypothese gleicher Mediane. Wenn die Probengrößen ungleich waren, wurden die BM-, RU- und U-Tests am besten durchgeführt. Bei einigen Einstellungen führten kleine Änderungen der Eigenschaften der Grundgesamtheit zu großen Änderungen bei der Durchführung der Tests. Zusammenfassend kann der ungefähre WMW-Test für große Stichproben eine schlechte Methode zum Vergleichen der Mittelwerte oder Mediane zweier Populationen sein, es sei denn, die beiden Verteilungen haben gleiche Formen und gleiche Skalen. Dieses Problem scheint auch in verschiedenen Graden auf den exakten WMW-Test, den FP-Test, den BM-Test und den Welch-U-Test auf Rängen anzuwenden. Bei Verwendung des WMW-Tests empfehlen die Autoren, die Eigenschaften der bewerteten Proben gründlich auf Anzeichen von Schiefe und Varianzheterogenität zu untersuchen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.