Warum brauchen wir eine alternative Hypothese?

12

Wenn wir testen, erhalten wir zwei Ergebnisse.

1) Wir lehnen die Nullhypothese ab

2) Wir können die Nullhypothese nicht ablehnen.

Wir sprechen nicht davon, alternative Hypothesen zu akzeptieren. Wenn wir nicht über das Akzeptieren alternativer Hypothesen sprechen, warum brauchen wir überhaupt alternative Hypothesen?

Hier ist ein Update: Könnte mir jemand zwei Beispiele geben:

1) Das Ablehnen der Nullhypothese entspricht dem Akzeptieren einer alternativen Hypothese

2) Das Ablehnen einer Nullhypothese ist nicht gleichbedeutend mit dem Akzeptieren einer alternativen Hypothese

hypothesis-testing

— user1700890
quelle

1

Weil Sie versuchen , einige Schlussfolgerungen zu ziehen. Wenn es sich nicht um die Nullhypothese handelt, handelt es sich möglicherweise um die Alternativhypothese (obwohl Sie nicht ganz sicher sind, ob die Alternativhypothese gültig ist, wenn Sie die Nullhypothese ablehnen). Wenn Sie die Nullhypothese ablehnen, sagen Sie, dass Sie einige "Beweise" haben, um zu dem Schluss zu kommen, dass die alternative Hypothese wahr sein könnte.

— nbro

@nbro, danke, ich habe meinem ursprünglichen Beitrag eine Frage hinzugefügt. Könnten Sie einen Blick darauf werfen?

— user1700890

1

Ich bin mit Hypothesentests im Allgemeinen nicht besonders vertraut. Warten Sie besser auf eine kompetentere Person, um Ihre Fragen zu beantworten.

— nbro

Wenn Ihre alternative Hypothese eine Ergänzung der Nullhypothese ist, macht es überhaupt keinen Sinn, sie zu verwenden. Niemand verwendet aus diesem Grund in der Praxis alternative Hypothesen außerhalb von Lehrbüchern.

— Aksakal

"Wir reden nicht darüber, alternative Hypothesen zu akzeptieren" - nicht für alle möglichen "wir". Einige Leute sprechen davon, die alternative Hypothese zu akzeptieren, und viele andere denken darüber nach, auch wenn sie das Tabu respektieren , es nicht zu sagen . Es ist etwas umständlich, nicht über die Annahme der alternativen Hypothese zu sprechen, wenn kein begründeter Zweifel daran besteht, dass sie wahr ist. Da Statistiken jedoch so anfällig für Missbrauch sind, ist die Pedanterie in diesem Fall wahrscheinlich eine gute Sache, da sie bei der Interpretation der Ergebnisse Vorsicht walten lässt.

— John Coleman

7

Ich werde mich auf "Wenn wir nicht über das Akzeptieren alternativer Hypothesen sprechen, warum brauchen wir überhaupt alternative Hypothesen?"

Weil es uns hilft, eine aussagekräftige Teststatistik auszuwählen und unsere Studie so zu gestalten, dass sie eine hohe Leistung aufweist - eine hohe Wahrscheinlichkeit, die Null abzulehnen, wenn die Alternative wahr ist. Ohne eine Alternative haben wir kein Machtkonzept.

Stellen Sie sich vor, wir haben nur eine Nullhypothese und keine Alternative. Dann gibt es keine Anleitung zur Auswahl einer Teststatistik mit hoher Leistung. Wir können nur sagen: "Lehnen Sie die Null ab, wenn Sie eine Teststatistik beobachten, deren Wert unter der Null unwahrscheinlich ist." Wir können etwas Beliebiges auswählen: Wir könnten einheitliche (0,1) Zufallszahlen zeichnen und die Null ablehnen, wenn sie unter 0,05 liegen. Dies geschieht unter der Null "selten", nicht mehr als 5% der Zeit - aber es ist auch genauso selten, wenn die Null falsch ist. Dies ist also technisch gesehen ein statistischer Test, aber als Beweis für oder gegen irgendetwas bedeutungslos.

Stattdessen haben wir normalerweise eine wissenschaftlich plausible alternative Hypothese (" In meinem Experiment gibt es einen positiven Unterschied in den Ergebnissen zwischen der Behandlungs- und der Kontrollgruppe"). Wir möchten es gegen potenzielle Kritiker verteidigen, die die Nullhypothese als Befürworter des Teufels aufgreifen würden ("Ich bin noch nicht überzeugt - vielleicht tut Ihre Behandlung tatsächlich weh oder hat überhaupt keine Wirkung , und es gibt einen offensichtlichen Unterschied in der." Daten sind nur auf Stichprobenvariationen zurückzuführen ").

Unter Berücksichtigung dieser beiden Hypothesen können wir jetzt einen leistungsstarken Test einrichten, indem wir eine Teststatistik auswählen, deren typische Werte unter der Alternative unter Null unwahrscheinlich sind. (Eine positive t-Statistik mit 2 Stichproben, die weit von 0 entfernt ist, wäre nicht überraschend, wenn die Alternative wahr ist, aber überraschend, wenn die Null wahr ist.) Dann ermitteln wir die Stichprobenverteilung der Teststatistik unter der Null, damit wir p-Werte berechnen können --- und interpretiere sie. Wenn wir eine Teststatistik beobachten, die unter der Null unwahrscheinlich ist, insbesondere wenn das Studiendesign, die Stichprobengröße usw. mit hoher Leistung ausgewählt wurden , liefert dies einige Beweise für die Alternative.

Warum reden wir nicht darüber, die alternative Hypothese zu "akzeptieren"? Denn selbst eine leistungsstarke Studie liefert keinen völlig strengen Beweis dafür, dass die Null falsch ist. Es ist immer noch eine Art Beweis, aber schwächer als einige andere Arten von Beweisen.

— Civilstat
quelle

7

Historisch gesehen gab es Meinungsverschiedenheiten darüber, ob eine alternative Hypothese notwendig war. Lassen Sie mich diesen Punkt der Meinungsverschiedenheit erklären, indem ich die Meinungen von Fisher und Neyman im Kontext der frequentistischen Statistik und eine Bayes'sche Antwort betrachte.

Fisher - Wir brauchen keine alternative Hypothese; Wir können einfach eine Nullhypothese mit einem Anpassungstest testen. Das Ergebnis ist ein $p$ Wert, der ein Beweismaß für die Nullhypothese liefert.
Neyman - Wir müssen einen Hypothesentest zwischen einer Null und einer Alternative durchführen. Der Test ist so, dass er zu Typ-1-Fehlern mit einer festen, vorgegebenen Rate $\alpha$ . Das Ergebnis ist eine Entscheidung - die Nullhypothese auf der Ebene abzulehnen oder nicht abzulehnen $\alpha$ .

Wir brauchen eine Alternative aus entscheidungstheoretischer Sicht - wir treffen eine Wahl zwischen zwei Vorgehensweisen - und weil wir die Leistung des Tests
$1 - - p (Akzeptieren {H.}_{0} | {H.}_{1})$ $1 - p\left(\textrm{Accept $H_0$} \, \middle|\, H_1\right)$ Wir sollten nach möglichst leistungsfähigen Tests suchen, um die beste Chance zu haben, abzulehnen $H_0$ wenn die Alternative wahr ist.

Um diese beiden Punkte zu erfüllen, kann die alternative Hypothese nicht die vage 'nicht $H_0$ " sein.
Bayesian - Wir müssen mindestens zwei Modelle berücksichtigen und ihre relative Plausibilität mit Daten aktualisieren. Mit nur einem einzigen Modell haben wir einfach
$p (H_{0}) = 1$ $p(H_0) = 1$ egal welche Daten wir sammeln. Um Berechnungen in diesem Rahmen durchzuführen, kann die alternative Hypothese (oder das Modell, wie es in diesem Zusammenhang bekannt wäre) nicht die schlecht definierte "nicht $H_0$ " sein. Ich nenne es schlecht definiert, da wir das Modell $p(\text{data}|\text{not }H_0)$ nicht schreiben können .

— innisfrei
quelle

1

Ihr letzter Punkt ist ausgezeichnet und wird in Veröffentlichungen oft vernachlässigt, deren gesamte Argumentation auf einem einzigen, nicht motivierten NHST beruht.

— Konrad Rudolph

Warum ist 'nicht

' schlecht definiert?

H_{0}

$H_0$

— Michael

Was ist es? Können Sie berechnen ,

?

p (d a t a | n o t H 0)

$p(data| not H0)$

— Innisfree

@innisfree unter frequentistischer Konzeption nicht, aber wahrscheinlich unter Bayesian.

— Michael

Versuchen Sie das, ohne mindestens 2 Modelle

— vorzustellen

4

Ich bin nicht 100% sicher, ob dies eine formale Anforderung ist, aber typischerweise die Nullhypothese und Alternative : 1) komplementär und 2) erschöpfend. Das heißt: 1) sie können nicht beide gleichzeitig wahr sein; 2) Wenn eines nicht wahr ist, muss das andere wahr sein.

Betrachten Sie einen einfachen Höhentest zwischen Mädchen und Jungen. Eine typische Nullhypothese in diesem Fall ist, dass $height_{boys} = height_{girls}$ . Eine alternative Hypothese wäre $height_{boys} \ne height_{girls}$ . Wenn also null nicht wahr ist, muss die Alternative wahr sein.

— Karolis Koncevičius
quelle

1

Ich stimme Ihren Aussagen voll und ganz zu, aber man sollte beachten, dass sowohl

als auch

üblicherweise unendlich große Mengen von Nullhypothesen sind. Es scheint auch , dass viele sind überzeugt , dass

und

Notwendigkeit , nicht erschöpfend zu sein, siehe zB diese oder diese Diskussion.

H_{0}

$H_0$

H_{a}

$H_a$

H_{0}

$H_0$

H_{a}

$H_a$

— Bi_scholar

2

@bi_scholar danke für Diskussionsthreads. Ich bin kein Experte in diesem Bereich, aber aufgrund einfacher Überlegungen glaube ich, dass sie erschöpfend sein müssen. Betrachten Sie diesen seltsamen Test: Jemand findet 5 Steine, die in der richtigen Reihenfolge auf einer Straße angeordnet sind. Sein

: Wind hat das getan. Sein

: Es waren Außerirdische. Wenn er nun die Wahrscheinlichkeit testet, dass der Wind dies getan hat und eine Wahrscheinlichkeit von 0,0001 findet, lehnt er die Windhypothese ab. Aber es gibt ihm nicht das Recht zu behaupten, es seien Außerirdische. Er kann nur behaupten, dass die Wahrscheinlichkeit, dass es Wind ist, gering ist. Aber jede andere Erklärung bleibt offen.

H_{0}

$H_0$

H_{1}

$H_1$

— Karolis Koncevičius

1

Genau. Meine Argumentation war, dass es beim Testen von Hypothesen darum geht,

akzeptieren oder abzulehnen, während

abgelehnt oder akzeptiert wird . Wenn

und

nicht erschöpfend sind, gibt es keinen Punkt jede bei der Definition

überhaupt, denn selbst wenn wir ablehnen

können wir nicht akzeptieren

, da es andere Hypothesen existieren außerhalb von

und

, die Macht auch wahr sein. Ich habe es leider nicht geschafft, meinen Standpunkt im ersten Thread zu vermitteln.

H_{0}

$H_0$

H_{a}

$H_a$

H_{0}

$H_0$

H_{a}

$H_a$

H_{a}

$H_a$

H_{0}

$H_0$

H_{a}

$H_a$

H_{0}

$H_0$

H_{a}

$H_a$

— Bi_scholar

1

@innisfree könnte man zwei Punkthypothesen in einer Art Wahrscheinlichkeitsrahmen testen - sicher. Aber dieses Verfahren würde nicht als "Nullhypothesentest" bezeichnet und ist ungenau. Es würde den nächsten als wahr auswählen, selbst wenn keiner von ihnen wahr ist. In Bezug auf die Leistung kann man bei der Berechnung der Leistung des Tests eine alternative Hypothese oder Effektgröße auswählen, sollte diese jedoch (meiner Ansicht nach) vergessen, sobald der Test stattfindet. Es sei denn, es gibt einige vorherige Informationen, die ihn über die möglichen Auswirkungen der Daten informieren. Wie vielleicht weiße / schwarze Pixel in einem verrauschten Foto.

— Karolis Koncevičius

1

@innisfree Ich bin gespannt, wie ein solcher Test aussehen würde. Könnten Sie ein kleines Beispiel formulieren? Ich bin überzeugt, dass wir

nicht akzeptieren können, indem wir

ablehnen, es sei denn,

, was

und

ist erschöpfend.

θ = 1

$\theta = 1$

H_{0}

$H_0$

θ \in {0, 1}

$\theta \in \{0, 1\}$

H_{0}

$H_0$

H_{1}

$H_1$

— Bi_scholar

2

Warum brauchen wir überhaupt eine alternative Hypothese?

Bei einem klassischen Hypothesentest spielt die alternative Hypothese nur eine mathematische Rolle, da sie die Reihenfolge der Beweise durch die ausgewählte Teststatistik beeinflusst. Die alternative Hypothese wird verwendet, um die geeignete Teststatistik für den Test zu bestimmen. Dies entspricht der Festlegung einer ordinalen Rangfolge aller möglichen Datenergebnisse von denjenigen, die der Nullhypothese am förderlichsten sind (gegen die angegebene Alternative), bis zu denjenigen, die den Nullhypothesen am wenigsten förderlich sind (gegen die angegebene Alternative). Sobald Sie diese ordinale Rangfolge der möglichen Datenergebnisse gebildet haben, spielt die alternative Hypothese im Test keine weitere mathematische Rolle .

Formale Erklärung: In jedem klassischen Hypothesentest mit $n$ beobachtbare Datenwerte $\mathbf{x} = (x_1,...,x_n)$ Sie haben einige Teststatistik $T: \mathbb{R}^n \rightarrow \mathbb{R}$ Dadurch wird jedes mögliche Ergebnis der Daten auf eine Ordnungsskala abgebildet, die misst, ob es der Null- oder Alternativhypothese förderlicher ist. (Ohne Verlust der Allgemeinheit gehen wir davon aus, dass niedrigere Werte der Nullhypothese förderlicher sind und höhere Werte der alternativen Hypothese förderlicher sind. Wir sagen manchmal, dass höhere Werte der Teststatistik "extremer" sind, sofern sie extremer sind Beweis für die alternative Hypothese.) Der p-Wert des Tests ist dann gegeben durch:

p (x) \equiv p_{T} (x) \equiv P (T (X) ⩾ T (x) | H_{0}) .

$p(\mathbf{x}) \equiv p_T(\mathbf{x}) \equiv \mathbb{P}( T(\mathbf{X}) \geqslant T(\mathbf{x}) | H_0).$

This p-value function fully determines the evidence in the test for any data vector. When combined with a chosen significance level, it determines the outcome of the test for any data vector. (We have described this for a fixed number of data points $n$ but this can easily be extended to allow for arbitrary $n$ .) It is important to note that the p-value is affected by the test statistic only through the ordinal scale it induces, so if you apply a monotonically increasing transformation to the test statistics, this makes no difference to the hypothesis test (i.e., it is the same test). This mathematical property merely reflects the fact that the sole purpose of the test statistic is to induce an ordinal scale on the space of all possible data vectors, to show which are more conducive to the null/alternative.

The alternative hypothesis affects this measurement only through the function $T$ , which is chosen based on the stated null and alternative hypotheses within the overall model. Hence, we can regard the test statistic function as being a function $T \equiv g (\mathcal{M}, H_0, H_A)$ of the overall model $\mathcal{M}$ and the two hypotheses. For example, for a likelihood-ratio-test the test statistic is formed by taking a ratio (or logarithm of a ratio) of supremums of the likelihood function over parameter ranges relating to the null and alternative hypotheses.

What does this mean if we compare tests with different alternatives? Suppose you have a fixed model $\mathcal{M}$ and you want to do two different hypothesis tests comparing the same null hypothesis $H_0$ against two different alternatives $H_A$ and $H_A'$ . In this case you will have two different test statistic functions:

T = g (M, H_{0}, H_{A}) T^{'} = g (M, H_{0}, H_{A}^{'}),

$T = g (\mathcal{M}, H_0, H_A) \quad \quad \quad \quad \quad T' = g (\mathcal{M}, H_0, H_A'),$

leading to the corresponding p-value functions:

p (x) = P (T (X) ⩾ T (x) | H_{0}) p^{'} (x) = P (T^{'} (X) ⩾ T^{'} (x) | H_{0}) .

$p(\mathbf{x}) = \mathbb{P}( T(\mathbf{X}) \geqslant T(\mathbf{x}) | H_0) \quad \quad \quad \quad \quad p'(\mathbf{x}) = \mathbb{P}( T'(\mathbf{X}) \geqslant T'(\mathbf{x}) | H_0).$

It is important to note that if $T$ and $T'$ are monotonic increasing transformations of one another then the p-value functions $p$ and $p'$ are identical, so both tests are the same test. If the functions $T$ and $T'$ are not monotonic increasing transformations of one another then we have two genuinely different hypothesis tests.

— Reinstate Monica
quelle

2

I would agree with this, saying that the test is designed to reject the null hypothesis when faced with extreme results, and the role of the alternative hypothesis is to point at which results would be seen as extreme if the null hypothesis were true

— Henry

1

The reason I wouldn't think of accepting the alternative hypothesis is because that's not what we are testing. Null hypothesis significance testing (NHST) calculates the probability of observing data as extreme as observed (or more) given that the null hypothesis is true, or in other words NHST calculates a probability value that is conditioned on the fact that the null hypothesis is true, $P(data|H_0)$ . So it is the probability of the data assuming that the null hypothesis is true. It never uses or gives the probability of a hypothesis (neither null nor alternative). Therefore when you observe a small p-value, all you know is that the data you observed appears to be unlikely under $H_0$ , so you are collecting evidence against the null and in favour for whatever your alternative explanation is.

Before you run the experiment, you can decide on a cut-off level ( $\alpha$ ) that deems you result significant, meaning if your p-value falls below that level, you conclude that the evidence against the null is so overwhelmingly high that the data must have originated from some other data generating process and you reject the null hypothesis based on that evidence. If the p-value is above that level you fail to reject the null hypothesis since your evidence is not substantial enough to believe that your sample came form a different data generating process.

The reason why you formulate an alternative hypothesis is because you likely had an experiment in mind before you started sampling. Formulating an alternative hypothesis can also decide on whether you use a one-tailed or two-tailed test and hence giving you more statistical power (in the one-tailed scenario). But technically in order to run the test you don't need to formulate an alternative hypothesis, you just need data.

— Stefan
quelle

NHST does not calculate

P (d a t a | H_{0})

$P(data|H_0)$ ; it calculates

P (data as extreme as that observed | H_{0})

$P(\textrm{data as extreme as that observed}|H_0)$ . The distinction is important.

— innisfree

@innisfree I agree and that's exactly how I defined data in that same sentence.

— Stefan

? I can’t see anywhere where data is defined (that way or any other way)

— innisfree

And even if it were, why do that? Why redefine data that way? I’d advise to clarify the parts of the text around p(data..

— innisfree