Wenn die Annahme der Homogenität der Varianz erfüllt ist, scheinen die Ergebnisse eines nach Welch eingestellten t-Tests und eines Standard-t-Tests ungefähr gleich zu sein. Warum nicht einfach immer das von Welch eingestellte t verwenden?
Wenn die Annahme der Homogenität der Varianz erfüllt ist, scheinen die Ergebnisse eines nach Welch eingestellten t-Tests und eines Standard-t-Tests ungefähr gleich zu sein. Warum nicht einfach immer das von Welch eingestellte t verwenden?
Antworten:
Ich möchte die beiden anderen Antworten auf der Grundlage eines Artikels von Kubinger, Rasch und Moder (2009) ablehnen .
Sie argumentieren, basierend auf "umfangreichen" Simulationen von Verteilungen, die entweder die durch einen t-Test auferlegten Annahmen erfüllen oder nicht (Normalität und Homogenität der Varianz), dass die Welch-Tests gleich gut abschneiden, wenn die Annahmen erfüllt sind (dh im Wesentlichen gleich sind Wahrscheinlichkeit, Alpha- und Betafehler zu begehen), übertrifft jedoch den t-Test, wenn die Annahmen nicht erfüllt werden, insbesondere in Bezug auf die Leistung. Sie empfehlen daher, den Welch-Test immer dann anzuwenden, wenn die Stichprobengröße 30 überschreitet.
Als Metakommentar: Für statistisch Interessierte (wie ich und wahrscheinlich auch die meisten anderen hier) sollte ein auf Daten basierendes Argument (wie meins) mindestens gleichermaßen als Argumente gelten, die ausschließlich auf theoretischen Gründen beruhen (wie die anderen hier).
Update:
Nachdem ich über dieses Thema noch einmal nachgedacht habe, habe ich zwei weitere Empfehlungen gefunden, von denen die neuere meinen Standpunkt untermauert. Schauen Sie sich die Originalarbeiten an (die beide, zumindest für mich, frei verfügbar sind), um zu den Argumenten zu gelangen, die zu diesen Empfehlungen führen.
Die erste Empfehlung stammt von Graeme D. Ruxton aus dem Jahr 2006: " Wenn Sie die zentrale Tendenz von 2 Populationen anhand von Stichproben von nicht verwandten Daten vergleichen möchten, sollte der t-Test mit ungleicher Varianz immer dem t-Test des Schülers vorgezogen werden oder Mann-Whitney-U-Test. "
In:
Ruxton, GD, 2006. Der ungleiche Varianz-t-Test ist eine zu wenig genutzte Alternative zum Student-t-Test und dem Mann-Whitney-U-Test .
Behav. Ecol . 17, 688–690.
Die zweite (ältere) Empfehlung stammt von Coombs et al. (1996, S. 148) . : " Zusammenfassend ist die unabhängige Stichproben t - Test ist in der Regel akzeptabel in Bezug auf die Steuerung des Typs I Fehlerraten vorausgesetzt , es sind ausreichend groß , gleich große Proben, selbst wenn die gleiche Varianz der Annahme verletzt wird. Für ungleiche Bei Stichproben mit kleinerer Größe ist jedoch eine Alternative vorzuziehen, bei der nicht die gleiche Varianz der Grundgesamtheit angenommen wird. Verwenden Sie den James-Test zweiter Ordnung, wenn die Verteilungen entweder kurzschwänzig symmetrisch oder normal sind Bessere Kontrolle der Typ-I-Fehlerraten als beim Welch-Test oder beim James-Test. Höhere Leistung, wenn Daten mit langen Schwänzen vorliegen. " (Hervorhebung hinzugefügt)
In:
Coombs WT, Algina J, Oltman D. 1996. Es wurden univariate und multivariate Omnibus-Hypothesentests ausgewählt, um die Fehlerraten von Typ I zu kontrollieren, wenn die Populationsvarianzen nicht unbedingt gleich sind . Rev Educ Res 66: 137–79.
Natürlich könnte man beide Tests außer Kraft setzen und einen Bayes'schen t-Test (Savage-Dickey-Ratio-Test) verwenden, der ungleiche und ungleiche Varianzen erklären kann Nullhypothese (was bedeutet, dass nicht mehr von alten "Ablehnungsversagen" die Rede ist)
Dieser Test ist sehr einfach (und schnell) zu implementieren, und es gibt ein Dokument, das den Lesern, die mit Bayes-Statistiken nicht vertraut sind, klar erklärt, wie man ihn zusammen mit einem R-Skript verwendet. Sie können einfach Ihre Daten eingeben und die Befehle an die R-Konsole senden:
Zu all dem gibt es auch ein Tutorial mit Beispieldaten:
http://www.ruudwetzels.com/index.php?src=SDtest
Ich weiß, dass dies keine direkte Antwort auf die gestellten Fragen ist, aber ich dachte, dass die Leser diese nette Alternative genießen könnten
Prost
Weil genaue Ergebnisse den Annäherungen vorzuziehen sind und Fälle mit ungeraden Kanten vermieden werden, in denen die Annäherung zu einem anderen Ergebnis führen kann als die genaue Methode.
Die Welch-Methode ist kein schnellerer Weg, einen alten t-Test durchzuführen, sondern eine praktikable Annäherung an ein ansonsten sehr schwieriges Problem: wie man einen t-Test unter ungleichen Varianzen erstellt. Der Fall der gleichen Varianz ist gut verstanden, einfach und genau und sollte daher immer verwendet werden, wenn dies möglich ist.
Zwei Gründe, die mir einfallen:
Regular Student's T ist ziemlich robust gegenüber Heteroskedastizität, wenn die Stichprobengrößen gleich sind.
Wenn Sie a priori der festen Überzeugung sind, dass die Daten homoskedastisch sind, verlieren Sie nichts und können durch die Verwendung von Studen'ts T anstelle von Welch's T ein wenig an Leistung gewinnen.
Ein Grund, den ich nicht nennen würde , ist, dass das T des Schülers genau ist und das T von Welch nicht. IMHO ist die Genauigkeit von Student's T akademisch, weil es nur für normalverteilte Daten genau ist und keine realen Daten genau normalverteilt sind. Ich kann mir keine einzige Größe vorstellen, die Menschen tatsächlich messen und statistisch analysieren, wobei die Verteilung plausibel alle reellen Zahlen stützen könnte. Zum Beispiel gibt es nur so viele Atome im Universum, und einige Größen können nicht negativ sein. Wenn Sie also einen T-Test für reale Daten verwenden, machen Sie trotzdem eine Annäherung.
Die Tatsache, dass etwas Komplexeres auf etwas weniger Komplexes reduziert wird, wenn eine Annahme überprüft wird, reicht nicht aus, um die einfachere Methode wegzuwerfen.
Ich würde hier die gegenteilige Ansicht vertreten. Warum sollten Sie sich mit dem Welch-Test beschäftigen, wenn der standardmäßige ungepaarte Student-T-Test nahezu identische Ergebnisse liefert? Ich habe dieses Problem vor einiger Zeit untersucht und eine Reihe von Szenarien untersucht, um den t-Test abzubrechen und den Welch-Test zu favorisieren. Dazu habe ich für eine Gruppe bis zu fünfmal größere Stichproben verwendet als für die andere. Und ich habe Abweichungen untersucht, die für eine Gruppe bis zu 25-mal größer sind als für die andere. Und es hat wirklich keinen materiellen Unterschied gemacht. Der ungepaarte t-Test ergab immer noch einen Bereich von p-Werten, der nahezu identisch mit dem Welch-Test war.
Sie können meine Arbeit unter dem folgenden Link sehen und sich besonders auf Folie 5 und 6 konzentrieren.
Es ist wahr, dass die Frequentist-Eigenschaften des Welch-korrigierten Tests besser sind als das normale Student-T, zumindest in Bezug auf Fehler. Ich stimme zu, dass das allein ein ziemlich gutes Argument für den Welch-Test ist. Normalerweise zögere ich jedoch, die Welch-Korrektur zu empfehlen, da ihre Verwendung oft täuscht. Das ist freilich keine Kritik am Test selbst.
Der Grund, warum ich die Welch-Korrektur nicht empfehle, ist, dass sie nicht nur die Freiheitsgrade und die nachfolgende theoretische Verteilung ändert, aus denen der p-Wert abgeleitet wird. Dadurch wird der Test nicht parametrisch. Um einen Welch-korrigierten t-Test durchzuführen, wird die Varianz immer noch gepoolt, als ob eine gleiche Varianz angenommen werden könnte. Anschließend wird jedoch das endgültige Testverfahren geändert, was impliziert, dass entweder keine gleiche Varianz angenommen werden kann oder dass Sie sich nur um die Probenvarianzen kümmern. Dies macht es zu einem nicht parametrischen Test, da die gepoolte Varianz als nicht repräsentativ für die Grundgesamtheit angesehen wird und Sie eingeräumt haben, dass Sie nur Ihre beobachteten Werte testen.
An und für sich ist daran nichts besonders auszusetzen. Ich finde es jedoch trügerisch, weil a) es in der Regel nicht mit ausreichender Genauigkeit gemeldet wird; und b) die Leute, die es benutzen, neigen dazu, austauschbar mit einem t-Test darüber nachzudenken. Der einzige Weg, wie ich jemals weiß, dass dies in veröffentlichten Veröffentlichungen geschehen ist, ist, wenn ich einen ungeraden DF für die t-Verteilung sehe. Dies war auch die einzige Möglichkeit, die Rexton (auf die in der Henrik-Antwort verwiesen wird) im Rückblick feststellen konnte. Leider tritt die nicht-parametrische Natur des Welch-korrigierten Tests auf, unabhängig davon, ob sich die Freiheitsgrade geändert haben oder nicht (dh selbst wenn die Probenvarianzen gleich sind). Dieses Berichterstattungsproblem ist jedoch symptomatisch für die Tatsache, dass die meisten Personen, die die Welch-Korrektur verwenden, diese Änderung des Tests nicht erkannt haben.
Aus diesem Grund glaube ich, dass Sie, wenn Sie einen nicht parametrischen Test empfehlen, keinen verwenden sollten, der oft parametrisch erscheint, oder zumindest sehr klar darüber sind, was Sie tun. Der offizielle Name des Tests sollte Nicht-parametrischer T-Test mit Welch-Korrektur sein. Wenn die Leute das so melden würden, wäre ich mit Henriks Empfehlung viel zufriedener.