Wie teste ich die Hypothese, dass es keine Gruppenunterschiede gibt?


39

Stellen Sie sich vor, Sie haben eine Studie mit zwei Gruppen (z. B. Männer und Frauen), die sich mit einer numerisch abhängigen Variablen (z. B. Intelligenztestergebnisse) befassen, und Sie haben die Hypothese, dass es keine Gruppenunterschiede gibt.

Frage:

  • Was ist ein guter Weg, um zu testen, ob es keine Gruppenunterschiede gibt?
  • Wie würden Sie die Stichprobengröße bestimmen, die für einen angemessenen Test auf keine Gruppenunterschiede erforderlich ist?

Erste Gedanken:

  • Es würde nicht ausreichen, einen Standard-t-Test durchzuführen, da ein Versagen, die Nullhypothese abzulehnen, nicht bedeutet, dass der interessierende Parameter gleich oder nahe Null ist. Dies ist insbesondere bei kleinen Proben der Fall.
  • Ich könnte das 95% -Konfidenzintervall betrachten und prüfen, ob alle Werte in einem ausreichend kleinen Bereich liegen. vielleicht plus oder minus 0,3 Standardabweichungen.

Was meinen Sie mit "dies setzt die Nullhypothese als wahr voraus"?
Robin Girard

Wenn Sie in der Lage sein möchten, die Wahrscheinlichkeit zu kontrollieren, falsch zu erklären, dass es einen Unterschied gibt, müssen Sie die beiden Hypothesen trennen .
Robin Girard

@Robin Der p-Wert eines Nullhypothesen-Signifikanztests ist die Wahrscheinlichkeit, dass Daten als oder als extremer als die beobachteten Daten angesehen werden, wenn die Nullhypothese wahr ist. aber vielleicht könnte ich die obige Aussage besser formulieren.
Jeromy Anglim

@ Robin Ich habe die Frage geändert, um meinen Standpunkt klarer zu machen
Jeromy Anglim

Antworten:


20

Ich denke, Sie fragen nach einer Prüfung auf Gleichwertigkeit . Im Wesentlichen müssen Sie entscheiden, wie groß der Unterschied sein darf, um zu dem Schluss zu gelangen, dass die beiden Gruppen tatsächlich gleichwertig sind. Diese Entscheidung definiert die 95% (oder andere) Konfidenzintervallgrenzen, und auf dieser Grundlage werden Stichprobengrößenberechnungen durchgeführt.

Es gibt ein ganzes Buch zum Thema.

Ein weit verbreitetes klinisches "Äquivalent" von Äquivalenztests ist ein Nicht-Minderwertigkeitstest / -versuch . In diesem Fall "bevorzugen" Sie eine Gruppe gegenüber der anderen (eine etablierte Behandlung) und entwerfen Ihren Test, um zu zeigen, dass die neue Behandlung der etablierten Behandlung auf einer bestimmten Ebene der statistischen Evidenz nicht unterlegen ist.

Ich glaube, ich muss Harvey Motulsky die GraphPad.com- Site (unter "Bibliothek" ) gutschreiben .


16

Neben der bereits erwähnten Möglichkeit einer Art Äquivalenzprüfung , von der die meisten nach meiner Kenntnis in der guten alten frequentistischen Tradition durchgeführt werden, besteht die Möglichkeit, Prüfungen durchzuführen, die tatsächlich eine Quantifizierung der Evidenz liefern zugunsten eines null-hyptheses, nämlich bayesianische tests .

Eine Implementierung eines Bayes'schen T-Tests finden Sie hier: Wetzels, R., Raaijmakers, JGW, Jakab, E. & Wagenmakers, E.-J. (2009). Quantifizierung der Unterstützung für und gegen die Nullhypothese: Eine flexible WinBUGS-Implementierung eines Standard-Bayes-T-Tests. Psychonomic Bulletin & Review, 16, 752-760.

Es gibt auch ein Tutorial, wie man das alles in R macht:

http://www.ruudwetzels.com/index.php?src=SDtest


Eine Alternative (vielleicht modernere Herangehensweise) eines Bayes'schen T-Tests (mit Code) wird in diesem Artikel von Kruschke bereitgestellt:

Kruschke, JK (2013). Die Bayes'sche Schätzung ersetzt den t-Test . Journal of Experimental Psychology: General , 142 (2), 573–603. doi: 10.1037 / a0029146


Alle Requisiten für diese Antwort (vor der Hinzufügung von Kruschke) sollten an meinen Kollegen David Kellen gehen. Ich habe seine Antwort von dieser Frage gestohlen .


Ich fragte mich, ob jemand einen bayesianischen Ansatz liefern würde. Ausgezeichnet. Vielen Dank.
Jeromy Anglim

1
Es könnte sich lohnen, diese Antwort zu aktualisieren, um einen Verweis auf das großartige BayesFactor-Paket für R.
crsh vom


8

Es gibt ein paar Papiere, von denen ich weiß, dass sie für Sie hilfreich sein könnten:

Tryon, WW (2001). Bewertung der statistischen Differenz, Äquivalenz und Unbestimmtheit unter Verwendung von Konfidenzintervallen: Eine integrierte alternative Methode zur Durchführung statistischer Nullhypothesentests. Psychological Methods, 6, 371 & ndash; 386. ( KOSTENLOSES PDF )

Und eine Korrektur:
Tryon, WW & Lewis, C. (2008). Eine Inferenz-Konfidenzintervall-Methode zur Ermittlung der statistischen Äquivalenz zur Korrektur des Tryon-Reduktionsfaktors (2001). Psychological Methods, 13, 272 & ndash; 278. ( KOSTENLOSES PDF )

Außerdem:

Seaman, MA & amp; Serlin, RC (1998). E Quivalenz-Konfidenzintervalle für Mittelwertvergleiche in zwei Gruppen . Psychological Methods, Band 3 (4), 403 & ndash; 411.


Es gibt jede Menge Papiere und sogar Bücher zu diesem Thema.
Michael Chernick

7

Ich habe kürzlich über einen alternativen Weg des "Äquivalenztests" nachgedacht, der auf einem Abstand zwischen den beiden Verteilungen und nicht zwischen ihren Mitteln basiert .

Es gibt einige Methoden, die Konfidenzintervalle für die Überlappung von zwei Gaußschen Verteilungen bereitstellen :Bildbeschreibung hier eingeben

Die Überlappung von (zwischen?) Zwei Verteilungen und hat eine schöne probabilistische Interpretation: wobeiist der Gesamtabstand zwischen und .O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

Das heißt, wenn beispielsweise dann unterscheiden sich die Wahrscheinlichkeiten, die durch und eines Ereignisses gegeben sind, nicht mehr als . Grob gesagt ergeben die beiden Verteilungen die gleichen Vorhersagen von bis zu .O(P1,P2)>0.9P1P20.110%

Anstatt also ein Akzeptanzkriterium zu verwenden, das auf einem kritischen Wert für die Differenz zwischen den Mittelwerten und basiert , wie bei der klassischen Äquivalenzprüfung, könnten wir es auf einen kritischen Wert für die Differenz zwischen den Wahrscheinlichkeiten der Vorhersagen von stützen die zwei Distributionen.μ1μ2

Ich denke, es gibt einen Vorteil in Bezug auf die "Objektivität" des Kriteriums. Der kritische Wert vonsollte von einem Experten für das eigentliche Problem angegeben werden: Dies sollte ein Wert sein, ab dem der Unterschied eine praktische Bedeutung hat. Aber manchmal hat niemand ein solides Wissen über das eigentliche Problem und es gibt keinen Experten, der einen kritischen Wert liefern kann. Das Annehmen eines herkömmlichen kritischen Wertes für das könnte ein Weg zu einem Kriterium sein, das nicht von dem betrachteten physikalischen Problem abhängt.|μ1μ2|TV(P1,P2)

Im Gaußschen Fall mit gleichen Varianzen ist die Überlappung eins zu eins bezogen auf die standardisierte mittlere Differenz .|μ1μ2|σ


Haben Sie Ressourcen, die Überschneidungen aufweisen und bei einigen echten Problemen verwendet werden? Das klingt unglaublich vielversprechend, aber es ist mir nicht klar, wie man es in einem echten Problem anwenden würde (wo Ihre Schlussfolgerungen möglicherweise mehrere Schritte von "diese Distribution ist ziemlich ähnlich zu X" entfernt sind, wodurch es ein wenig schwierig wird zu sehen, wie das ist 10% TV bedeutet Einfluss auf die Schlussfolgerungen.
Stumpy Joe Pete

1
@StumpyJoePete Ich habe etwas im gleichen Sinne auf meinem Blog geschrieben: stla.github.io/stlapblog/posts/…
Stéphane Laurent

5

In den medizinischen Wissenschaften ist es vorzuziehen, einen Konfidenzintervallansatz zu verwenden, im Gegensatz zu zwei einseitigen Tests (tost). Ich empfehle auch, die Punktschätzungen, die CIs und die vorher festgelegten Äquivalenzspannen grafisch darzustellen, um die Dinge sehr klar zu machen.

Ihre Frage würde wahrscheinlich von einem solchen Ansatz behandelt werden.

Die CONSORT-Richtlinien für Nichtunterlegenheits- / Äquivalenzstudien sind in dieser Hinsicht sehr nützlich.

Siehe Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ und CONSORT Group. Berichterstattung über randomisierte Studien mit Nichtunterlegenheit und Äquivalenz: eine Erweiterung der CONSORT-Erklärung. JAMA. 2006, 8. März; 295 (10): 1152 & ndash; 60. (Link zum Volltext.)


1
Ich würde nicht unbedingt sagen, dass Konfidenzintervalle bevorzugt werden. Tatsächlich entsprechen die Konfidenzintervalle Hypothesentests. TOST kann erreicht werden, indem die Konfidenzintervalle betrachtet werden, die durch Überschneiden der beiden einseitigen Konfidenzintervalle erhalten werden, die den beiden in der Prozedur verwendeten einseitigen t-Tests entsprechen.
Michael Chernick

4

Ja. Dies ist eine Äquivalenzprüfung. Grundsätzlich kehren Sie die Null- und Alternativhypothese um und stützen die Stichprobengröße auf die Potenz, um zu zeigen, dass die Differenz der Mittelwerte innerhalb des Äquivalenzfensters liegt. Blackwelder nannte es "Beweisen der Nullhypothese". Dies wird üblicherweise in pharmazeutischen klinischen Studien durchgeführt, in denen die Gleichwertigkeit eines Generikums mit dem vermarkteten Medikament getestet oder ein zugelassenes Medikament mit einer neuen Formulierung verglichen wird (häufig als Bioäquivalenz bezeichnet). Die einseitige Version heißt Nicht-Minderwertigkeit. Manchmal kann ein Medikament genehmigt werden, indem nur gezeigt wird, dass das neue Medikament dem vermarkteten Wettbewerber nicht unterlegen ist. Shao und Pigeot haben einen konsistenten Bootstrap-Ansatz für die Bioäquivalenz unter Verwendung von Crossover-Designs entwickelt.


0

Bootstrap-Unterschiede (z. B. die Differenz zwischen den Mittelwerten) zwischen den beiden Stichprobengruppen und Überprüfung auf statistische Signifikanz. Eine detailliertere Beschreibung dieses Ansatzes, wenn auch in einem anderen Kontext, finden Sie hier: http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/


1
Sie verbinden den Irrtum , die Nullhypothese ohne Unterschied zu akzeptieren und Beweise dafür zu finden , dass zwei Größen gleichwertig sind .
Alexis
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.