Können wir die Null in Nicht-Minderwertigkeitstests akzeptieren?

Bei einem üblichen t-Test der Mittelwerte unter Verwendung der üblichen Hypothesentestmethoden lehnen wir entweder die Null ab oder lehnen die Null nicht ab, akzeptieren jedoch niemals die Null. Ein Grund dafür ist, dass, wenn wir mehr Beweise erhalten würden, dieselbe Effektgröße signifikant werden würde.

Aber was passiert bei einem Nicht-Minderwertigkeitstest?

Das ist:

H_{0} : μ_{1} - μ_{0} \leq x

$H_0: \mu_1 - \mu_0 \le x$

vs.

H_{1} : μ_{1} - μ_{0} > x

$H_1: \mu_1 - \mu_0 > x$

wobei eine Menge ist, die wir als im Wesentlichen gleich betrachten. Wenn wir also die Null ablehnen, sagen wir, dass um mindestens größer als . Wir können die Null nicht ablehnen, wenn es nicht genügend Beweise gibt. $x$ $\mu_1$ $\mu_0$ $x$

Wenn die Effektgröße oder größer ist, ist dies analog zum regulären t-Test. Aber was ist, wenn die Effektgröße in dem Beispiel, das wir haben, kleiner als ist? Wenn wir dann die Stichprobengröße erhöhen und den gleichen Effekt beibehalten würden, würde dies nicht signifikant bleiben. Können wir daher in diesem Fall die Null akzeptieren? $x$ $x$

hypothesis-testing tost non-inferiority

— Peter Flom - Monica wieder einsetzen
quelle

Sind Ihre Hypothesen durcheinander? Normalerweise lautet die Nullhypothese für einen NI-Test, dass der Unterschied größer als x ist, während die Alternative darin besteht, dass er les oder gleich x ist. Ich denke, es hängt von der Reihenfolge Ihrer Differenzskala ab.

— Björn

Hallo @ Björn, es würde davon abhängen, ob höher schlechter oder höher besser ist.

— Peter Flom - Monica wieder einsetzen

Ist es dasselbe wie zu fragen, ob man die Null in einseitigen Tests akzeptieren kann? In den Kommentaren zu stats.stackexchange.com/a/85914 wurde darüber diskutiert .

— Amöbe

@amoeba Ich denke, Peter präsentiert ein faszinierendes Argument (+1), das vielleicht eher einem Paradoxon ähnelt. Eine konventionelle Erklärung dafür, warum wir H0 nicht "akzeptieren", hört man manchmal, "wenn wir mehr Beweise bekommen, wird dieselbe Effektgröße signifikant". Aber nach dieser Logik wie Peter nicht, wir entweder zu dem Schluss gekommen , dass in einigen Situationen , die wir sollten „H0 akzeptieren“, oder wenn wir dies nicht tun, dass die „Vernunft“ eigentlich falsch ist, und nicht , warum wir tun es überhaupt nicht . Ich glaube, Sie haben Recht - sein Argument würde auch für einseitige T-Tests gelten, da eine negative Effektgröße mit zunehmendem n unbedeutend bleibt

— Silverfish

Ja, ich stimme zu: Die verknüpfte Antwort beantwortet Ihre Frage nicht. Ich habe den Link nur bereitgestellt, weil es in den Kommentaren dort eine verwandte Diskussion gab.

— Amöbe

Antworten:

Ihre Logik gilt genauso für die guten alten einseitigen Tests (dh mit ), die den Lesern möglicherweise besser bekannt sind. Stellen Sie sich der vor , wir testen die Null gegen die Alternative, dass positiv ist. Wenn dann true negativ ist, führt eine Erhöhung der Stichprobengröße nicht zu einem signifikanten Ergebnis, dh um Ihre Worte zu verwenden, ist es nicht wahr, dass "wenn wir mehr Beweise erhalten würden, würde dieselbe Effektgröße signifikant werden". $x=0$ $H_0:\mu\le0$ $\mu$ $\mu$

Wenn wir testen , können wir drei mögliche Ergebnisse erzielen: $H_0:\mu\le 0$

Erstens kann das Konfidenzintervall vollständig über Null liegen; dann lehnen wir die Null ab und akzeptieren die Alternative (dass positiv ist). $(1-\alpha)\cdot100\%$ $\mu$
Zweitens kann das Konfidenzintervall vollständig unter Null liegen. In diesem Fall lehnen wir die Null nicht ab. In diesem Fall denke ich jedoch, dass es in Ordnung ist zu sagen, dass wir "die Null akzeptieren", weil wir als eine weitere Null betrachten und diese ablehnen könnten . $H_1$
Drittens kann das Konfidenzintervall Null enthalten. Dann können wir nicht ablehnen und wir können auch nicht ablehnen , also gibt es nichts zu akzeptieren. $H_0$ $H_1$

Ich würde also sagen, dass man in einseitigen Situationen die Null akzeptieren kann, ja. Aber wir können es nicht einfach akzeptieren, weil wir es nicht abgelehnt haben; Es gibt drei Möglichkeiten, nicht zwei.

(Genau das Gleiche gilt für Äquivalenztests, auch bekannt als "zweiseitige Tests" (TOST), Nicht-Minderwertigkeitstests usw. Man kann die Null ablehnen, die Null akzeptieren oder ein nicht schlüssiges Ergebnis erhalten.)

Wenn ein Punkt Null wie , können wir ihn niemals akzeptieren, da keine gültige Nullhypothese darstellt. $H_0$ $H_0:\mu=0$ $H_1:\mu\ne 0$

(Es sei denn, kann nur diskrete Werte haben, z. B. muss eine Ganzzahl sein. Dann scheint es, dass wir akzeptieren könnten, da jetzt eine gültige Null darstellt Hypothese. Dies ist jedoch ein Sonderfall.) $\mu$ $H_0:\mu=0$ $H_1:\mu\in\mathbb Z,\mu\ne 0$

Dieses Problem wurde vor einiger Zeit in den Kommentaren unter @ gungs Antwort hier diskutiert: Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?

Siehe auch einen interessanten (und unterbewerteten) Thread. Bedeutet das Versäumnis, die Null im Neyman-Pearson-Ansatz abzulehnen, dass man sie "akzeptieren" sollte? , wo @Scortchi erklärt, dass einige Autoren im Neyman-Pearson-Framework kein Problem damit haben, über das "Akzeptieren der Null" zu sprechen. Das bedeutet auch @Alexis im letzten Absatz ihrer Antwort hier.

— Amöbe
quelle

Wenn das -Konfidenzintervall vollständig über Null liegt, lehnen Sie die Null ab, die : Dies ist ein Test mit einer Worst-Case-Größe von . Wenn das -Konfidenzintervall vollständig unter Null liegt, lehnen Sie die Null ab, die : Dies ist ein Test mit einer Worst-Case-Größe von . Durch Kombinieren der beiden Tests können Sie eine Worst-Case-Größe von beibehalten, da sich die beiden Nullen gegenseitig ausschließen. Die drei Ergebnisse können also so beschrieben werden, dass eine Alternative oder eine andere Alternative akzeptiert oder keine Null abgelehnt wird.

(1 - α)

$(1-\alpha)$

μ \leq 0

$\mu\leq 0$

\frac{α}{2}

$\frac{\alpha}{2}$

(1 - α)

$(1-\alpha)$

μ > 0

$\mu>0$

\frac{α}{2}

$\frac{\alpha}{2}$

\frac{α}{2}

$\frac{\alpha}{2}$

— Scortchi - Monica wieder einsetzen

Ein zweiseitiger Test kann ähnlich als aus zwei einseitigen Tests zusammengesetzt betrachtet werden. Die Alternativen schließen sich jedoch nicht gegenseitig aus. Die Größe im ungünstigsten Fall ist (wenn ).

α

$\alpha$

μ = 0

$\mu=0$

— Scortchi - Monica wieder einsetzen

Danke @Scortchi. Irgendwie bin ich mir nicht ganz sicher, ob Sie meiner Antwort zustimmen oder nicht.

— Amöbe

Wie nicht akzeptiert wird qua null in einem Test, sondern qua Alternative in einem anderen, ich fühle "die Null zu akzeptieren" unnötig verwirrend ist hier; Trotzdem sollte Ihr Verfahren diejenigen befriedigen, die den Drang dazu haben. Was in Ihrer Antwort vielleicht mehr Nachdruck verdient, ist der Unterschied zwischen der Kombination von Tests auf Nichtunterlegenheit gegenüber Minderwertigkeit und umgekehrt und Tests auf Überlegenheit gegenüber Nichtüberlegenheit (oder der Null-Null) und Minderwertigkeit gegenüber Nicht-Unterlegenheit (oder der Null-Null). .

μ \leq 0

$\mu\leq 0$

— Scortchi - Monica wieder einsetzen

@ Scortchi Die Syntax Ihres letzten Satzes ist ziemlich kompliziert: Was genau kann (oder kann nicht) kombiniert werden und was genau ist der Unterschied? Ich bin mir nicht sicher, ob ich dich richtig verstanden habe, sorry.

— Amöbe

Wir "akzeptieren niemals die Nullhypothese" (ohne auch die Leistung und die minimale relevante Effektgröße zu berücksichtigen). Mit einem einzelnen Hypothesentest stellen wir einen Naturzustand und beantworten dann eine Variation der Frage "Wie unwahrscheinlich ist es, dass wir die unserer Teststatistik zugrunde liegenden Daten unter der Annahme von (und unserer Verteilung) beobachtet haben Annahme) ist wahr? " Wir werden dann unsere basierend auf einer bevorzugten Fehlerrate vom Typ I ablehnen oder nicht ablehnen und eine Schlussfolgerung ziehen, die sich immer auf bezieht. Das heißt, wir haben Beweise gefunden, um auf , oder wir haben es getan keine Beweise finden, um . Wir akzeptieren kein $H_{0}$ $H_{0}$ $H_{0}$ $H_{A}$ $H_{A}$ $H_{A}$ $H_{0}$ weil wir nicht nach Beweisen dafür gesucht haben. Das Fehlen von Beweisen (z. B. eines Unterschieds) ist nicht dasselbe wie das Fehlen von Beweisen (z. B. eines Unterschieds). .

Dies gilt für einseitige Tests ebenso wie für zweiseitige Tests: Wir suchen nur nach Beweisen für und finden sie oder finden sie nicht. $H_{A}$

Wenn wir nur ein einziges (ohne sowohl die minimale relevante Effektgröße als auch die statistische Aussagekraft ernsthaft zu berücksichtigen), verpflichten wir uns a priori zur Bestätigungsverzerrung , da wir nicht nach Beweisen für gesucht haben , nur Beweise für . Natürlich können (und sollten wir sagen ) Nullhypothesen für und gegen eine Position aufstellen ( Relevanztests , die Differenztests ( ) mit Äquivalenztests ( kombinieren ) ) mach genau das). $H_{0}$ $H_{0}$ $H_{A}$ $H_{0}^{+}$ $H^{-}_{0}$

Es scheint mir , dass es keinen Grund gibt , warum Sie nicht Folgerung aus einem einseitigen Test kombinieren kann für Minderwertigkeit mit einem einseitigen Test für Nicht-Unterlegenheit den Nachweis zu erbringen (oder Mangel an Beweisen) in beide Richtungen gleichzeitig.

Natürlich, wenn man die Leistung und die Effektgröße berücksichtigt und nicht ablehnt , aber weiß, dass es (a) eine minimale relevante Effektgröße gibt und (b) dass ihre Daten leistungsfähig genug sind, um erkannt zu werden Wenn es für einen bestimmten Test gilt, kann man dies als Beweis für interpretieren . $H_{0}$ $\delta$ $H_{0}$

— Alexis
quelle

Peters Frage enthielt einen besonders interessanten Punkt, den diese Antwort zu umgehen scheint: Eine der herkömmlichen Erklärungen für die Standardterminologie "H0 nicht ablehnen" ist, dass z. B. in einem T-Test, wenn wir mehr Beweise erhalten, der gleiche Effekt erzielt wird Größe würde signifikant werden. Aber wenn dies der "wahre" Grund wäre, den wir "nicht ablehnen", scheint sein Argument, dass wir unter den von ihm skizzierten Umständen "H0 akzeptieren" könnten (zumindest für mich), ein starker zu sein - obwohl ich nicht sicher bin, ob ich es bin Ich habe es anders als beiläufig gesehen, als eine Art statistischen Slang, anstatt bewusst und absichtlich.

— Silverfish

Diese Antwort wiederholt die konventionelle Position zum "Akzeptieren von H0" auf eine nette, klare und prägnante Weise, scheint aber das Argument (oder vielleicht das Paradoxon), das im Zentrum von Peters Frage steht, nicht direkt anzusprechen. Was halten Sie von dem Argument "Wir können H0 nicht akzeptieren, denn wenn wir mehr Beweise erhalten würden, würde dieselbe Effektgröße signifikant werden" für die konventionelle Terminologie - gibt es einen Fehler in Peters Darstellung oder Erweiterung oder war die Logik des ursprünglichen Arguments überhaupt ungültig?

— Silverfish

@Silverfish folgen Sie dem Link in meiner Antwort auf "Relevanztests", um meine kritische Auflösung des Problems "Wir können H0 nicht akzeptieren, da wir mehr Beweise erhalten würden, würde dieselbe Effektgröße signifikant werden"

— Alexis

@Alexis Ich muss Silverfish zustimmen. Ich schätze Ihre Antwort, aber sie spricht meinen zentralen Punkt nicht an, aus dem Grund, den Silverfish aussprach. Wenn wir N = 1.000.000 hätten, wäre so ziemlich jeder Unterschied in der Standardeinstellung signifikant. Aber im Fall der Nichtunterlegenheit ist das nicht so. Und selbst in TOST zweiseitig ist es nicht so. Wenn der Unterschied geringer ist als der Betrag, den wir für wichtig halten, wird kein N ihn zum Sig machen.

— Peter Flom - Monica wieder einsetzen

Entschuldigung - mein erster Kommentar war nur als Auftakt zum zweiten gedacht (oder genauer gesagt, der zweite war der Überlauf des ersten!) Und nicht dazu gedacht, einen eigenen freistehenden Punkt zu erheben. Der Link war hilfreich, danke. Ihr zentraler Punkt (den Sie sowohl in Ihrer Antwort als auch in Ihrem Restatement sehr gut formuliert haben) erklärt klar, warum Sie mit Peters Schlussfolgerung nicht einverstanden sind . Aber ich war neugierig, wo Sie das Gefühl hatten, dass der Fehler in seiner Logik lag - oder vielleicht in seiner Prämisse . Dies ist das Stück, das ich als nicht direkt angegangen empfunden habe.

— Silverfish