Äquivalenztests für nicht normale Daten?


9

Ich habe einige Daten, von denen ich nicht unbedingt annehmen kann, dass sie aus Normalverteilungen stammen, und ich möchte Äquivalenztests zwischen Gruppen durchführen. Für normale Daten gibt es Techniken wie TOST (zwei einseitige T-Tests). Gibt es etwas Analoges zu TOST für nicht normale Daten?


1
Ich bin mit TOST nicht vertraut, aber suchen Sie Mann-Whitney? Dies ist ein nichtparametrischer Test (in dem Sinne, dass keine Annahmen zu den Verteilungen getroffen werden), der möglicherweise den Nachweis erbringt, dass zwei Gruppen aus unterschiedlichen Verteilungen stammen.
Nick Sabbe

1
Ich suche nach einem Test, bei dem die Nullhypothese lautet, dass es einen Unterschied gibt, und die alternative Hypothese lautet, dass es (fast) keinen Unterschied gibt.
Ryan C. Thompson

Für kleine Beispiele können Sie sich die Antworten unter stats.stackexchange.com/questions/49782/… ansehen . Für größere Stichproben ist der klassische Ansatz mit t-Tests dank des zentralen Grenzwertsatzes in Ordnung.
Michael M

3
Nichts in der Phrase "Zwei einseitige Tests" - noch die zugrunde liegende Logik impliziert Normaltheorie. Es sollte durchaus möglich sein, es an eine Standortverschiebungsalternative mit einer nicht normalen Verteilung anzupassen. Aber Vorsicht - in vielen Fällen möchten Sie bei nicht normalen Daten wirklich einen Äquivalenztest mit Skalenverschiebung und bei anderen Arten von Daten stattdessen etwas anderes. Zu wissen, was benötigt wird, hängt wirklich davon ab, was Sie messen und welches Problem Sie lösen. Anstatt zu versuchen, Ihren Stift in ein rundes Loch zu drücken, lohnt es sich, den Stift zu untersuchen.
Glen_b -State Monica

Antworten:


8

Die Logik der TOST eingesetzt für Wald-Typ t und z Teststatistiken (dh θ/.sθ und θ/.σθ bezeichnet) kann auf die aufgetragen werden z für nicht - parametrische Tests wie das Zeichen, Zeichen Rang und Rangsummentests Annäherungen. Der Einfachheit halber gehe ich davon aus, dass die Äquivalenz symmetrisch mit einem einzelnen Term ausgedrückt wird, aber die Erweiterung meiner Antwort auf asymmetrische Äquivalenzterme ist unkompliziert.

Ein Problem, das dabei auftritt, ist, dass, wenn man es gewohnt ist, den Äquivalenzterm (z. B. Δ ) in denselben Einheiten wie θ auszudrücken, der Äquivalenzterm in Einheiten des jeweiligen Vorzeichens, des vorzeichenbehafteten Ranges oder Ranges ausgedrückt werden muss Summenstatistik, die sowohl abstrus als auch von N abhängig ist .

Man kann jedoch auch TOST-Äquivalenzterme in Einheiten der Teststatistik selbst ausdrücken. Man bedenke , dass in TOST, wenn z=θ/.σθ , dann z1=(Δ- -θ)/.σθ und z2=(θ+Δ)/.σθ . Wenn wir ε=Δ/.σθ , dann ist z1=ε- -z und z2=z+ε . (Die hier ausgedrückten Statistiken werden beide imrechtenSchwanzausgewertet:p1=P.(Z.>z1) undp2=P.(Z.>z2) .) Die Verwendung von Einheiten derz-Verteilung zur Definition der Äquivalenz- / Relevanzschwelle kann für nichtparametrische Tests vorzuziehen sein, da die Alternative den Schwellenwert in Einheiten von vorzeichenbehafteten Rängen oder Rangsummen definiert, was für Forscher im Wesentlichen bedeutungslos und schwer zu interpretieren sein kann.

Wenn wir erkennen, dass es (für symmetrische Äquivalenzintervalle) nicht möglich ist, eine TOST-Nullhypothese abzulehnen, wenn εz1- -α , können wir entsprechend Entscheidungen über die geeignete Größe des Äquivalenzterms treffen. Zum Beispiel ist ε=z1- -α+0,5 .

Dieser Ansatz wurde mit Optionen zur Kontinuitätskorrektur usw. im Paket tost für Stata implementiert (das jetzt spezifische TOST-Implementierungen für die Shapiro-Wilk- und Shapiro-Francia-Tests enthält), auf die Sie zugreifen können, indem Sie Stata eingeben:

Bearbeiten: Warum die Logik von TOST solide ist und Äquivalenztestformationen auf Sammeltests angewendet wurden, hat mich überzeugt, dass meine Lösung auf einem tiefen Missverständnis der ungefähren Statistiken für die Shapiro-Wilk- und Shapiro-Francia-Tests beruhte


3

Es ist kein TOST an sich, aber der Komolgorov-Smirnov-Test ermöglicht es, die Signifikanz des Unterschieds zwischen einer Stichprobenverteilung und einer zweiten Referenzverteilung, die Sie angeben können, zu testen. Sie können diesen Test verwenden, um eine bestimmte Art unterschiedlicher Verteilung auszuschließen, jedoch nicht unterschiedliche Verteilung im Allgemeinen (zumindest nicht ohne Kontrolle der Fehlerinflation über Tests aller möglichen Alternativen hinweg ... wenn dies selbst irgendwie möglich ist). Die alternative Hypothese für einen Test bleibt wie üblich die weniger spezifische "Catch-All" -Hypothese.

Wenn Sie sich mit einem Test der Verteilungsunterschiede zwischen zwei Gruppen zufrieden geben können, bei dem die Nullhypothese lautet, dass die beiden Gruppen gleich verteilt sind, können Sie den Komolgorov-Smirnov-Test verwenden, um die Verteilung einer Gruppe mit der der anderen Gruppe zu vergleichen. Dies ist wahrscheinlich der herkömmliche Ansatz: Ignorieren Sie die Unterschiede, wenn sie statistisch nicht signifikant sind, und begründen Sie diese Entscheidung mit einer Teststatistik.

In jedem Fall möchten Sie möglicherweise einige tiefere Aspekte berücksichtigen, die sich aus dem "Alles-oder-Nichts" -Ansatz zur Ablehnung einer Nullhypothese ergeben. Ein solches Problem ist hier bei Cross Validated sehr beliebt: " Ist Normalitätstest 'im Wesentlichen nutzlos'? " Die Leute beantworten Fragen zum Normalitätstest gerne mit der Frage: "Warum möchten Sie dies testen?" Ich gehe davon aus, dass die Absicht im Allgemeinen darin besteht, den Grund für das Testen ungültig zu machen, was letztendlich in die richtige Richtung führen kann. Der Kern nützlicher Antworten auf die Frage, die ich hier verlinkt habe, scheint wie folgt zu sein:

  1. Wenn Sie über Verstöße gegen parametrische Testannahmen besorgt sind, sollten Sie nur einen nichtparametrischen Test finden, der stattdessen keine Verteilungsannahmen trifft. Testen Sie nicht, ob Sie den nichtparametrischen Test verwenden müssen. benutze es einfach!
  2. Sie sollten die Frage "Ist meine Verteilung signifikant nicht normal?" Ersetzen. mit: "Wie ungewöhnlich ist meine Verteilung und wie wirkt sich dies wahrscheinlich auf meine interessierenden Analysen aus?" Zum Beispiel können Tests bezüglich der zentralen Tendenz (insbesondere mit Mitteln) empfindlicher gegenüber Schiefe als gegenüber Kurtosis sein und umgekehrt für Tests bezüglich (Co-) Varianz. Dennoch gibt es robuste Alternativen für die meisten Analysezwecke, die für beide Arten von Nichtnormalität nicht sehr empfindlich sind.

Wenn Sie dennoch einen Äquivalenztest durchführen möchten, finden Sie hier eine weitere beliebte Diskussion zu Cross Validated , die Äquivalenztests umfasst.


1
0- -::|θ- -θ0|Δ01- -::θ- -θ0Δ01- -::θ- -θ0- -Δ01- -02- -- -Δ<θ- -θ0<Δ[- -Δ,Δ]]

Fair genug; Ich war wahrscheinlich etwas irreführend. Ich habe die Teile entfernt, gegen die Sie Einwände zu erheben scheinen. Ich denke jedoch, dass Sie Ihren Kommentar etwas zu stark formuliert haben. Trotz der Tatsache , dass der erzwungene dichotomous fail to/ rejectAnsatz ist gut etabliert, können die meisten Proben die Möglichkeit nicht ganz ausschließen , dass die Null wahr ist. Es besteht fast immer die Möglichkeit eines falschen Ablehnungsfehlers, wenn man auf einer Ablehnung besteht, was normalerweise nicht buchstäblich notwendig ist. Das war wahrscheinlich der wichtigere Punkt, den ich ursprünglich ansprechen wollte. Hoffentlich ist es jetzt etwas klarer ohne das gelöschte Zeug
Nick Stauner

2
Meiner Meinung nach liegt die Stärke von Äquivalenztests (z. B. H - 0 ) darin, sie mit den bekannten Differenztests (z. B. H + 0 ) zu kombinieren . Probieren Sie es aus: (1) H + 0 ablehnen & H - 0 nicht ablehnen , relevante Differenz schließen ; (2) H + 0 nicht ablehnen & H ablehnen0- -0+0+0- -0+0- -Δ0+0- -0+0- -

Natürlich verschwinden Fragen der Sensitivität und Spezifität, des PPV und des NPV nicht.
Alexis

-1

Äquivalenz können wir niemals testen . Denken Sie an die Hypothese: H.0::fxfyH.1::fx=fyH.0fxN.(0,1)f^xf^yX.=Y.fyfx

H.0H.1

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

gibt

> mean(p)
[1] 0.034

p

Auf der anderen Seite, wenn wir nehmen:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

Gibt:

> mean(p)
[1] 0.437

Wie bei NHST gibt es subtile Probleme in Bezug auf Leistung und falsch positive Fehlerraten, die mit der Simulation untersucht werden sollten, bevor endgültige Schlussfolgerungen gezogen werden.

Ich denke, eine ähnliche (vielleicht allgemeinere) Methode verwendet Bayes'sche Statistiken, um den nach beiden Wahrscheinlichkeitsmodellen geschätzten posterioren Wert zu vergleichen.


2
AdamO Sie scheinen "Gleichheit testen" mit "Gleichwertigkeit testen" zu verbinden. Es gibt eine jahrzehntealte und solide Literatur zu den Methoden und der Anwendung der letzteren.
Alexis

1
Siehe zum Beispiel Wellek, S. (2010). Testen statistischer Hypothesen der Äquivalenz und Nichtunterlegenheit . Chapman and Hall / CRC Press, zweite Ausgabe.
Alexis

@Alexis hmm, wir haben leider keinen Zugang zu einer Bibliothek. Wollen Sie damit sagen, dass Äquivalenz dasselbe ist wie Nicht-Minderwertigkeit, sofern Schätzungen, die innerhalb eines Spielraums liegen, als gleichwertig angesehen werden?
AdamO

1
Nicht ganz: Nicht-Minderwertigkeit ist ein einseitiger Test, ob eine neue Behandlung nicht schlechter als ein Standard abzüglich eines kleinsten relevanten Unterschieds ist, der a priori angegeben wird . Äquivalenztests sind Tests der Nullhypothese, dass sich zwei (oder mehr) Größen - in beide Richtungen - um mehr als einen kleinsten relevanten Unterschied unterscheiden, der a priori angegeben wurde . Einige wegweisende Papiere:
Alexis

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.