Zusammenhang zwischen Konfidenzintervall und teststatistischer Hypothese für t-Test


31

Es ist bekannt, dass Konfidenzintervalle und das Testen statistischer Hypothesen eng miteinander zusammenhängen. Meine Fragen konzentrieren sich auf den Vergleich von Mitteln für zwei Gruppen auf der Grundlage einer numerischen Variablen. Nehmen wir an, dass eine solche Hypothese mit t-test getestet wird. Auf der anderen Seite kann man für beide Gruppen Konfidenzintervalle berechnen. Gibt es einen Zusammenhang zwischen der Überlappung von Konfidenzintervallen und der Ablehnung der Nullhypothese, dass die Mittel gleich sind (zugunsten der Alternative, die Unterschiede bedeutet - zweiseitiger Test)? Beispielsweise könnte ein Test die Nullhypothese ablehnen, wenn sich die Konfidenzintervalle nicht überlappen.

Antworten:


31

Ja, es gibt einige einfache Zusammenhänge zwischen Konfidenzintervallvergleichen und Hypothesentests in einer Vielzahl praktischer Einstellungen. Zusätzlich zur Überprüfung der CI-Verfahren und des t-Tests, die für unsere Daten geeignet sind, müssen wir überprüfen, dass die Stichprobengrößen nicht zu unterschiedlich sind und dass die beiden Sätze ähnliche Standardabweichungen aufweisen. Wir sollten auch nicht versuchen, hochpräzise p-Werte aus dem Vergleich zweier Konfidenzintervalle abzuleiten, sondern uns freuen, effektive Näherungen zu entwickeln.

Bei dem Versuch, die beiden bereits gegebenen Antworten (von @John und @Brett) in Einklang zu bringen, ist es hilfreich, mathematisch explizit zu sein. Eine Formel für ein symmetrisches zweiseitiges Konfidenzintervall, das für die Einstellung dieser Frage geeignet ist, lautet

CI=m±tα(n)sn

Dabei ist m der Stichprobenmittelwert von n unabhängigen Beobachtungen, s die Standardabweichung der Stichprobe, 2α die gewünschte Testgröße (maximale falsch positive Rate) und tα(n) das obere 1α Perzentil der Student-t-Verteilung mit n1 Freiheitsgraden. (Diese geringfügige Abweichung von der konventionellen Schreibweise vereinfacht die Darstellung , da die Unterscheidung von n gegen n1 , die ohnehin keine Rolle spielt, nicht weiter bearbeitet werden muss.)

Verwendung von tiefgestellten Indizes 1 und 2 zu unterscheiden , zwei unabhängige Sätze von Vergleichsdaten, mit 1 entsprechend dem größeren der beiden Mittel, ein nicht -overlap von Konfidenzintervallen wird durch die Ungleichung (untere Vertrauensgrenze 1) ausgedrückt > (obere Vertrauensgrenze 2 ); nämlich. ,

m1tα(n1)s1n1>m2+tα(n2)s2n2.

Dies kann so gemacht werden, dass es wie die t-Statistik des entsprechenden Hypothesentests aussieht (um die beiden Mittelwerte zu vergleichen), was zu einfachen algebraischen Manipulationen führt

m1m2s12/n1+s22/n2>s1n2tα(n1)+s2n1tα(n2)n1s22+n2s12.

Die linke Seite ist die im Hypothesentest verwendete Statistik. Es wird normalerweise mit einem Perzentil einer Student-t-Verteilung mit n1+n2 Freiheitsgraden verglichen, dh mit tα(n1+n2) . Die rechte Seite ist ein voreingenommener gewichteter Durchschnitt der ursprünglichen t-Verteilungsperzentile.

Die bisherige Analyse rechtfertigt die Antwort von @Brett: Es scheint keine einfache Beziehung zu geben. Lassen Sie uns jedoch weiter untersuchen. Ich bin begeistert zu tun, weil, intuitiv, eine Nicht-Überlappung von Konfidenzintervallen sollte etwas sagen!

Beachten Sie zunächst, dass diese Form des Hypothesentests nur dann gültig ist, wenn wir erwarten, dass s1 und s2 mindestens annähernd gleich sind. (Andernfalls stoßen wir auf das berüchtigte Behrens-Fisher-Problem und seine Komplexität.) Wenn wir die ungefähre Gleichheit von si prüfen , können wir eine ungefähre Vereinfachung in der Form erstellen

m1m2s1/n1+1/n2>n2tα(n1)+n1tα(n2)n1+n2.

Hier ist ss1s2 . Realistisch gesehen sollten wir nicht erwarten, dass dieser informelle Vergleich von Vertrauensgrenzen dieselbe Größe wie α . Unsere Frage ist dann, ob es ein α so dass die rechte Seite (zumindest näherungsweise) der korrekten t-Statistik entspricht. Für was α ist das der Fall?

tα(n1+n2)=n2tα(n1)+n1tα(n2)n1+n2?

Es stellt sich heraus, dass α und α bei gleichen Stichprobengrößen durch ein Potenzgesetz (mit ziemlich hoher Genauigkeit) verbunden sind. Zum Beispiel ist hier ein Log-Log-Plot der beiden für die Fälle n1=n2=2 (unterste blaue Linie), n1=n2=5 (mittlere rote Linie), n1=n2= ( höchste Goldlinie). Die mittlere grüne gestrichelte Linie ist eine Annäherung, die unten beschrieben wird. Die Geradheit dieser Kurven widerspricht einem Potenzgesetz. Sie variiert mit n=n1=n2 , aber nicht viel.

Grundstück 1

Die Antwort hängt zwar von der Menge {n1,n2} , es ist jedoch selbstverständlich, sich zu fragen, wie stark sie sich bei Änderungen der Stichprobengröße tatsächlich ändert. Insbesondere können wir hoffen, dass bei moderaten bis großen Stichprobengrößen (möglicherweise n110,n210 oder so) die Stichprobengröße kaum einen Unterschied macht. In diesem Fall könnten wir einen quantitativen Weg entwickeln, um α mit α in Beziehung zu setzen .

Dieser Ansatz hat sich bewährt, sofern die Stichprobengrößen nicht zu stark voneinander abweichen. Der Einfachheit halber werde ich eine Omnibusformel zur Berechnung der Testgröße α angeben, die der Konfidenzintervallgröße α . Es ist

αeα1.91;

das ist,

αexp(1+1.91log(α)).

Diese Formel funktioniert in den folgenden Situationen recht gut:

  • Beide Stichprobengrößen liegen nahe beieinander, n1n2 , und α ist nicht zu extrem ( α>.001 oder so).

  • Eine Stichprobengröße liegt innerhalb des Dreifachen der anderen und die kleinste ist nicht zu klein (ungefähr größer als 10 ) und α ist wiederum nicht zu extrem.

  • Eine Stichprobengröße liegt innerhalb des Dreifachen der anderen und α>.02 oder so.

Hier ist der relative Fehler (korrekter Wert dividiert durch die Approximation) in der ersten Situation aufgetragen, wobei die untere (blaue) Linie den Fall n1=n2=2 , die mittlere (rote) Linie den Fall n1=n2=5 und die obere (goldene) Linie der Fall n1=n2= . Interpoliert man die beiden letzteren, so zeigt sich, dass die Approximation für einen weiten Bereich praktischer Werte von α hervorragend ist, wenn die Stichprobengröße moderat ist (etwa 5-50) und ansonsten einigermaßen gut ist.

Grundstück 2

Dies ist mehr als gut genug, um eine Reihe von Konfidenzintervallen in Augenschein zu nehmen.

Zusammenfassend lässt sich sagen , dass das Versagen von zwei Konfidenzintervallen mit 2α agr ; -Größe der Mittelwerte, die sich überlappen, ein signifikanter Hinweis auf einen Mittelwertunterschied auf einem Niveau von 2eα1.91 , vorausgesetzt, die beiden Stichproben haben ungefähr gleiche Standardabweichungen und sind ungefähr gleich groß .

Ich werde mit einer Tabelle der Approximation für gemeinsame Werte von 2α enden .

2α 2α
0,1 0,02

0,05 0,005

0,01 0,0002

0,005 0,00006

2α=.05p<.005n.0037n=2.0056n=

Dieses Ergebnis rechtfertigt (und ich hoffe, es verbessert sich) die Antwort von @John. Obwohl die vorherigen Antworten widersprüchlich zu sein scheinen, sind beide (auf ihre Weise) korrekt.


7

Nein, zumindest nicht einfach.

Es gibt jedoch eine genaue Übereinstimmung zwischen dem t-Test der Differenz zwischen zwei Mitteln und dem Konfidenzintervall für die Differenz zwischen den beiden Mitteln.

Wenn das Konfidenzintervall für die Differenz zwischen zwei Mittelwerten Null enthält, kann ein t-Test für diese Differenz Null nicht mit demselben Konfidenzniveau zurückweisen. Wenn das Konfidenzintervall nicht 0 enthält, würde der t-Test ebenfalls die Null zurückweisen.

Dies ist nicht dasselbe wie eine Überlappung zwischen Konfidenzintervallen für jedes der beiden Mittel.


Die Antwort von @John, die derzeit im Detail nicht ganz richtig ist, weist zu Recht darauf hin, dass Sie Überlappungen von CIs mit p-Werten in Beziehung setzen können, um sie zu testen. Die Beziehung ist nicht komplexer als der T-Test. Dies scheint Ihrer primären Schlussfolgerung zu widersprechen, wie in der ersten Zeile angegeben. Wie würden Sie diesen Unterschied beheben?
whuber

Ich denke nicht, dass sie widersprüchlich sind. Ich kann einige Einschränkungen hinzufügen. Ohne zusätzliche Annahmen und Kenntnisse über Parameter außerhalb der Darstellung des Intervalls (Varianz, Stichprobengröße) bleibt die Antwort jedoch im Allgemeinen unverändert. Nein, zumindest nicht einfach.
Brett

5

Unter typischen Annahmen gleicher Varianz gibt es eine Beziehung. Wenn sich die Balken um weniger als die Länge eines Balkens * sqrt (2) überlappen, würden sie sich bei einem t-Test bei alpha = 0,05 signifikant unterscheiden. Wenn sich die Enden der Balken kaum berühren, ergibt sich ein Unterschied von 0,01. Wenn die Konfidenzintervalle für die Gruppen nicht gleich sind, nimmt man normalerweise den Durchschnitt und wendet die gleiche Regel an.

Wenn alternativ die Breite eines Konfidenzintervalls um eines der Mittel w ist, ist der geringste signifikante Unterschied zwischen zwei Werten w * sqrt (2). Dies ist einfach, wenn Sie an den Nenner in der unabhängigen Gruppe t-test, sqrt (2 * MSE / n), und den Faktor für das CI, sqrt (MSE / n), denken.

(95% CIs angenommen)

Es ist ein einfaches Papier auf Rückschlüsse aus Konfidenzintervall um unabhängige Mittel hier . Es wird diese und viele andere verwandte Fragen beantworten.

Cumming, G. & Finch, S. (2005, März). Inferenz mit dem Auge: Konfidenzintervalle und wie man Datenbilder liest. American Psychologist , 60 (2), 170 & ndash; 180.


2
Ich glaube, Sie müssen auch davon ausgehen, dass die beiden Gruppen die gleiche Größe haben.
whuber

ungefähr, ja ...
John
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.