Wenn wir die Nullhypothese in einer großen Studie nicht ablehnen, ist es dann kein Beweis für die Null?


59

Eine grundlegende Einschränkung der Signifikanzprüfung von Nullhypothesen besteht darin, dass ein Forscher keine Beweise für die Null sammeln kann ( Quelle ).

Ich sehe diese Behauptung an mehreren Stellen wiederholt, aber ich kann keine Rechtfertigung dafür finden. Wenn wir eine große Studie durchführen und keine statistisch signifikanten Beweise für die Nullhypothese finden , ist das nicht ein Beweis für die Nullhypothese?


3
Wir beginnen unsere Analyse jedoch mit der Annahme, dass die Nullhypothese korrekt ist ... Die Annahme könnte falsch sein. Vielleicht haben wir nicht genug Leistung, aber das heißt nicht, dass die Annahme richtig ist.
SmallChess

13
Wenn Sie es nicht gelesen haben, empfehle ich Jacob Cohens Die Erde ist rund (p <.05) . Er betont, dass man mit einer ausreichend großen Stichprobe so gut wie jede Nullhypothese ablehnen kann. Er spricht sich auch für die Verwendung von Effektgrößen und Konfidenzintervallen aus und bietet eine übersichtliche Darstellung der Bayes'schen Methoden. Außerdem ist es eine pure Freude zu lesen!
Dominic Comtois

7
Nullhypothesen kann nur sein , nur falsch. ... das Versäumnis, die Null zurückzuweisen, ist kein Beweis für eine hinreichend nahe Alternative.
Glen_b

3
Siehe stats.stackexchange.com/questions/85903 . Siehe aber auch stats.stackexchange.com/questions/125541 . Wenn Sie mit "einer großen Studie" "groß genug" meinen, um die geringste Auswirkung von Interesse zu erkennen ", kann die Nichtbeachtung der Zurückweisung als Akzeptieren der Null interpretiert werden.
Amöbe sagt Reinstate Monica

7
Betrachten wir Hempels Paradoxon der Bestätigung. Das Untersuchen einer Krähe und das Erkennen, dass sie schwarz ist, unterstützt "alle Krähen sind schwarz". Die logische Untersuchung eines nicht schwarzen Objekts und die Feststellung, dass es sich nicht um eine Krähe handelt, muss jedoch auch den Satz unterstützen, da die Aussagen "alle Krähen sind schwarz" und "alle nicht schwarzen Objekte sind keine Krähen" logisch äquivalent sind Auflösung ist, dass die Anzahl der nicht schwarzen Objekte viel, viel größer ist als die Anzahl der Krähen, so dass die Unterstützung, die eine schwarze Krähe dem Satz gibt, entsprechend größer ist als die winzige Unterstützung, die eine nicht schwarze Nichtkrähe gibt.
Ben

Antworten:


63

Eine Nullhypothese verworfen Andernfalls ist Beweis dafür , dass die Nullhypothese wahr ist, aber es ist vielleicht nicht besonders sein guter Beweis, und es ist sicherlich nicht beweist die Nullhypothese.

Machen wir einen kurzen Umweg. Betrachten Sie für einen Moment das alte Klischee:

Das Fehlen von Beweisen ist kein Beweis für die Abwesenheit.

Ungeachtet seiner Popularität ist diese Aussage Unsinn. Wenn Sie nach etwas suchen und es nicht finden, ist das ein absoluter Beweis dafür, dass es nicht da ist. Wie gut diese Beweise sind, hängt davon ab, wie gründlich Ihre Suche war. Eine flüchtige Suche liefert schwache Beweise; eine erschöpfende Suche liefert starke Beweise.

Nun zurück zum Testen der Hypothese. Wenn Sie einen Hypothesentest durchführen, suchen Sie nach Beweisen dafür, dass die Nullhypothese nicht wahr ist. Wenn Sie es nicht finden, dann ist das sicherlich ein Beweis dafür, dass die Nullhypothese wahr ist , aber wie stark ist dieser Beweis? Um das zu wissen, müssen Sie wissen, wie wahrscheinlich es ist, dass Beweise, die Sie dazu gebracht hätten, die Nullhypothese abzulehnen, Ihrer Suche entgangen sein könnten. Das heißt, wie hoch ist die Wahrscheinlichkeit eines falsch negativen Ergebnisses bei Ihrem Test? Dies ist auf die Leistung bezogen, , des Tests (insbesondere ist das Komplement, 1- ) .βββ

Die Stärke des Tests und damit die Rate der falsch negativen Ergebnisse hängt normalerweise von der Größe des gewünschten Effekts ab. Große Effekte sind leichter zu erkennen als kleine. Daher gibt es keine einzelne für ein Experiment und daher keine endgültige Antwort auf die Frage, wie stark die Beweise für die Nullhypothese sind. Anders ausgedrückt, es gibt immer einen Effekt, der so klein ist, dass das Experiment dies nicht ausschließt.β

Von hier aus gibt es zwei Möglichkeiten, um fortzufahren. Manchmal wissen Sie, dass Sie sich nicht für eine Effektgröße interessieren, die unter einem bestimmten Schwellenwert liegt. In diesem Fall sollten Sie Ihr Experiment wahrscheinlich so umgestalten, dass die Nullhypothese lautet, dass der Effekt über diesem Schwellenwert liegt, und dann die Alternativhypothese testen, dass der Effekt unter dem Schwellenwert liegt. Alternativ können Sie Ihre Ergebnisse verwenden, um Grenzen für die glaubwürdige Größe des Effekts festzulegen. Ihre Schlussfolgerung wäre, dass die Größe des Effekts mit einiger Wahrscheinlichkeit in einem Intervall liegt. Dieser Ansatz ist nur einen kleinen Schritt von einer Bayes'schen Behandlung entfernt, über die Sie möglicherweise mehr erfahren möchten, wenn Sie sich häufig in einer solchen Situation befinden.

Es gibt eine nette Antwort auf eine verwandte Frage, die Hinweise auf Abwesenheitstests berührt , die Sie vielleicht nützlich finden.


9
Betrachten wir einen Hypothesentest mit , mit und einem nicht signifikanten p-Wert. Nach Ihrer Überlegung ist dies ein Beweis für . Ein weiterer Hypothesentest mit , mit und einem nicht signifikanten p-Wert, würde dann einige Belege für liefern . Diese Beweise widersprechen sich offensichtlich. ˉ x = 3 μ 2 H 1 : μ < 4 ˉ x = 3 μ 4H1:μ>2x¯=3μ2H1:μ<4x¯=3μ4
Macond

4
Ich bin mir nicht sicher, ob ich deinem Argument folge. Nach allem, was ich sagen kann, beschreiben Sie zwei Experimente, von denen jedes (wahrscheinlich ziemlich schwache) Beweise für eine von zwei miteinander inkonsistenten Hypothesen liefert. Warum ist das überraschend?
Niemand

8
Ein weiteres Beispiel: common . Wenn Sie ablehnen scheitern es bedeutet es , dass Sie Beweise haben , dass unter allen anderen Werten auf reale Linie, der wahre Mittelwert ist genau 0 ..? Diese Antwort ist irreführend! H0:μ=0
Tim

3
Ich mag Ihren Beweisbericht - er scheint schnell zum Bayes-Faktor zu führen, der die Datenunterstützung eines Modells gegenüber einem anderen quantifiziert. Gibt Hinweise für oder gegen μ 2 ? Nun, es hängt von Ihrer vorherigen Dichte für μ ab : Wenn Sie denken, dass μ irgendwo unter 2 oder irgendwo über 3 liegt, liefern die Daten Beweise dafür. Wenn Sie der Meinung sind, dass μ gleich wahrscheinlich zwischen -10 und 10 liegen, liefern die Daten Beweise dafür. In einer frequentistischen Analyse wird Ihr Glaubensgrad jedoch nicht durch eine Zahl dargestellt. Welcher Beweisbegriff gilt also?x¯=3μ2μμμ
Scortchi

6
Es erinnert mich an die Riemannsche Hypothese. Wir haben nach nicht trivialen Nullen außerhalb der Zeile mit Realteil 1/2 gesucht und gesucht, aber keine gefunden. Und obwohl wir die Riemann-Hypothese nicht für wahr halten, weil wir sie nicht bewiesen haben, glauben die meisten Mathematiker, dass sie wahr ist, und es gibt viele Ergebnisse, die davon abhängig sind, dass die Riemann-Hypothese wahr ist :) In diesem Fall haben wir sie also interpretiert Fehlen von Beweisen als Beweis für die Abwesenheit
Ant

29

NHST stützt sich auf p-Werte, die uns sagen: Wenn die Nullhypothese wahr ist, wie hoch ist die Wahrscheinlichkeit, dass wir unsere Daten (oder extremere Daten) beobachten?

Wir gehen davon aus, dass die Nullhypothese wahr ist - es ist in NHST verankert, dass die Nullhypothese zu 100% korrekt ist. Kleine p-Werte sagen uns, dass unsere Daten (oder extremere Daten) unwahrscheinlich sind, wenn die Nullhypothese wahr ist.

Aber was sagt uns ein großer p-Wert? Es sagt uns, dass angesichts der Nullhypothese unsere Daten (oder extremere Daten) wahrscheinlich sind.

Im Allgemeinen gilt P (A | B) ≠ P (B | A).

Stellen Sie sich vor, Sie möchten einen großen p-Wert als Beweis für die Nullhypothese verwenden. Sie würden sich auf diese Logik verlassen:

  • Wenn die Null wahr ist, ist ein hoher p-Wert wahrscheinlich. ( Update: Nicht wahr. Siehe Kommentare unten. )
  • Es wird ein hoher p-Wert gefunden.
  • Daher ist die Null wahr.

Dies nimmt die allgemeinere Form an:

  • Wenn B wahr ist, dann ist A wahrscheinlich.
  • A tritt auf.
  • Daher ist B wahr.

Dies ist jedoch trügerisch, wie ein Beispiel zeigt:

  • Wenn es draußen geregnet hat, ist es wahrscheinlich, dass der Boden nass ist.
  • Der Boden ist nass.
  • Deshalb hat es draußen geregnet.

Der Boden könnte sehr gut nass sein, weil es geregnet hat. Oder es könnte an einer Sprinkleranlage liegen, jemand hat seine Dachrinnen gereinigt, eine Wasserleitung ist kaputt usw. Weitere Beispiele finden Sie im obigen Link.

Es ist ein sehr schwer zu verstehendes Konzept. Wenn wir Beweise für die Null wollen, ist eine bayesianische Folgerung erforderlich. Die für mich am leichtesten zugängliche Erklärung dieser Logik ist von Rouder et al. (2016). in paper Gibt es ein kostenloses Mittagessen in Inference? veröffentlicht in Topics in Cognitive Science, 8, S. 520–547.


3
Ich mag es nicht, dass alle Ihre Beispiele zu dem Schluss kommen, dass "X wahr ist". Beweise für etwas zu haben, ist nicht dasselbe, als etwas mit hundertprozentiger Sicherheit zu schließen. Wenn ich nach draußen gehe und der Boden nass ist, ist das ein Beweis für "es hat geregnet". Dieser Beweis macht es viel wahrscheinlicher, dass Regen aufgetreten ist.
Atte Juvonen

Das ist fair. Dass Rouder et al. Das Papier, auf das ich am Ende meiner Antwort verweise, enthält keine Beispiele, die mit Sicherheit Schlussfolgerungen ziehen.
Mark White

6
@AtteJuvonen ja, wir haben einige Beweise für Regen, aber wir wissen nicht, wie wahrscheinlich es ist. Die einzige Schlussfolgerung, die Sie daraus ziehen können, ist, dass "es hätte regnen können, oder es könnte etwas anderes gewesen sein, das den Boden nass gemacht hat" . Sie haben also keine schlüssigen Beweise. Nur aufgrund der Bayes'schen Statistik kann man das Gegenteil argumentieren.
Tim

3
Ich bin mit Ihrer Schlussfolgerung nicht einverstanden "Wenn wir Beweise für die Null wollen, ist eine bayesianische Schlussfolgerung erforderlich"; Die Studie, die Sie zitieren, stammt von Wagenmakers, der ein sehr lautstarker Befürworter der Bayes'schen Statistik ist, so dass sie dies offensichtlich argumentiert. Tatsächlich kann man jedoch im Paradigma der Frequentisten leicht "für die Null" nachweisen, indem man z. B. TOST (zwei einseitige Tests) auf Äquivalenz durchführt. (cc @AtteJuvonen).
Amöbe sagt Reinstate Monica


14

Um zu verstehen, was an der Annahme falsch ist, sehen Sie sich das folgende Beispiel an:

Stellen Sie sich ein Gehege in einem Zoo vor, in dem Sie die Bewohner nicht sehen können. Sie möchten die Hypothese, dass es von Affen bewohnt wird, testen, indem Sie eine Banane in den Käfig legen und prüfen, ob sie am nächsten Tag verschwunden ist. Dies wird N-mal wiederholt, um die statistische Signifikanz zu verbessern.

Nun können Sie eine Nullhypothese formulieren: Angesichts der Tatsache, dass sich Affen im Gehege befinden, ist es sehr wahrscheinlich, dass sie die Banane finden und essen. Wenn die Bananen also jeden Tag unberührt bleiben, ist es sehr unwahrscheinlich, dass sich Affen im Gehege befinden.

Aber jetzt sehen Sie, dass die Bananen (fast) jeden Tag weg sind. Sagt Ihnen das, dass Affen drinnen sind?

Natürlich nicht, denn es gibt auch andere Tiere, die Bananen mögen, oder vielleicht entfernt ein aufmerksamer Tierpfleger die Banane jeden Abend.

Also, was ist der Fehler, der in dieser Logik gemacht wird? Der Punkt ist, dass Sie nichts über die Wahrscheinlichkeit wissen, dass Bananen weg sind, wenn sich keine Affen darin befinden. Um die Nullhypothese zu bestätigen, muss die Wahrscheinlichkeit des Verschwindens von Bananen gering sein, wenn die Nullhypothese falsch ist, dies muss jedoch nicht der Fall sein. In der Tat kann das Ereignis gleich wahrscheinlich (oder sogar wahrscheinlicher) sein, wenn die Nullhypothese falsch ist.

Ohne diese Wahrscheinlichkeit zu kennen, kann man über die Gültigkeit der Nullhypothese nichts genaues sagen. Wenn Tierpfleger jeden Abend alle Bananen entfernen, ist das Experiment völlig wertlos, obwohl Sie auf den ersten Blick die Nullhypothese bestätigt haben.


Dies sollte die akzeptierte Antwort sein.
Emily L.

2
@amoeba In diesem Fall wäre null hyp, dass sich Affen im Käfig befinden. Alt hyp wäre, dass keine Affen im Käfig sind. Die Proben, die ich sammle, sind die Beobachtungen "Banane weg" und "Banane noch da" jeden Morgen. Wenn ich verschiedene Annahmen über Affen und ihre Fähigkeit, Bananen zu finden, mache, kann ich die Wahrscheinlichkeit p berechnen, dass ich das tatsächliche Ergebnis mit Affen in einem Käfig gesehen hätte. Wenn noch oft Bananen da sind, lehne ich die Null-Hyp ab. Wenn Bananen immer weg sind, passt dies zur Nullhyp, aber es beweist nicht, dass sich Affen im Käfig befinden.
Thern

1
@amoeba Ich bin nicht sicher, ob es möglich ist, das Affenbeispiel direkt in Ihr T-Test-Szenario zu übersetzen. Meines Wissens bedeutet das Testen von Nullhypothesen im Allgemeinen, was auch Mark White in seiner Antwort schrieb: "Wenn die Nullhypothese wahr ist, mit welcher Wahrscheinlichkeit beobachten wir unsere Daten (oder extremere Daten)?". Ihr T-Test-Szenario ist ein spezieller Fall davon, aber ich sehe derzeit nicht ein, wie dieses Szenario verallgemeinert werden kann. Aus meinem Bauch heraus würde ich sagen, dass Ihr Szenario und das Affenbeispiel zwei verschiedene Arten des Hypothesentests sind, die nicht direkt aufeinander abgebildet werden können.
Thern

1
Wenn ja @Nebr, dann bin ich wieder sehr verwirrt über die Bedeutung Ihres Affenbeispiels. T-Test ist wahrscheinlich der häufigste Hypothesentest; Ich habe es in meinem Kommentar erwähnt, nur weil es so ein typisches Beispiel für einen Test ist. Wenn Ihr Affenbeispiel nicht (wie Sie sagen) auf dieses anwendbar ist - typisch! - Situation, dann bin ich über seine Bedeutung verwirrt. Wenn Sie sagen, dass T-Test und Affen-Beispiel "zwei verschiedene Arten des Hypothesentests" sind, können Sie dann ein Beispiel für einen statistischen Test geben, der Ihrem Affen-Beispiel "Art" folgt? Wovon genau ist dein Affenbeispiel eine Analogie?
Amöbe sagt Reinstate Monica

1
@Nebr Ich stimme zu, dass es eine allgemeine Frage ist. Aber wenn Sie mir kein einziges Beispiel für einen echten statistischen Test geben können, der die gleiche Eigenschaft wie Ihr Affenbeispiel hat, dann tut es mir leid, aber ich muss Ihr Affenbeispiel für diesen Thread als ziemlich irrelevant betrachten. Ich sage nicht, dass das Affenbeispiel speziell einem t-Test entsprechen muss. Aber es muss etwas entsprechen !!
Amöbe sagt Reinstate Monica

14

In seinem berühmten Aufsatz Why Most Published Research Findings Are False ( Warum die meisten veröffentlichten Forschungsergebnisse falsch sind) verwendete Ioannidis Bayesianisches Denken und den Basisraten-Irrtum, um zu argumentieren, dass die meisten Ergebnisse falsch positiv sind. Kurz gesagt, die Wahrscheinlichkeit nach dem Studium, dass eine bestimmte Forschungshypothese zutrifft, hängt unter anderem von der Wahrscheinlichkeit vor dem Studium dieser Hypothese ab (dh von der Basisrate).

Als Reaktion darauf haben Moonesinghe et al. (2007) verwendeten dasselbe Framework, um zu zeigen, dass die Replikation die Wahrscheinlichkeit, dass eine Hypothese wahr ist, nach dem Studium erheblich erhöht. Dies ist sinnvoll: Wenn mehrere Studien einen bestimmten Befund replizieren können, sind wir sicherer, dass die vermutete Hypothese wahr ist.

αWahrscheinlichkeit nach dem Studium

Die Grafik zeigt, dass, wenn mindestens 5 von 10 Studien die Signifikanz nicht erreichen, unsere Wahrscheinlichkeit nach dem Studium, dass die Hypothese wahr ist, fast 0 beträgt. Für mehr Studien bestehen dieselben Beziehungen. Diese Feststellung macht auch intuitiv Sinn: Ein wiederholtes Versäumnis, einen Effekt zu finden, stärkt unsere Überzeugung, dass der Effekt höchstwahrscheinlich falsch ist. Diese Argumentation stimmt mit der akzeptierten Antwort von @RPL überein.

Als zweites Szenario nehmen wir an, dass die Studien nur eine Potenz von 50% haben (alle anderen sind gleich).Wahrscheinlichkeit_pow50 nach dem Studium

Jetzt sinkt unsere Wahrscheinlichkeit nach dem Studium langsamer, da jede Studie nur eine geringe Leistung hatte, um den Effekt zu finden, falls er tatsächlich existierte.


Beachten Sie, dass Sie alle Beweise für die Nullhypothese aus Fällen erhalten, in denen ein Test diese Hypothese nicht besteht. Die Annahme des OP war jedoch, dass die Tests die Nullhypothese bestätigen ("Wenn wir eine große Studie durchführen und keine statistisch signifikanten Beweise gegen die Nullhypothese finden, ist das kein Beweis für die Nullhypothese?"). Dies entspricht dem äußersten linken Teil Ihrer Diagramme und somit einem Fall, in dem die Wahrscheinlichkeit des Effekts immer noch 50% (oder im Allgemeinen die Wahrscheinlichkeit vor dem Studium) beträgt, sodass Sie nichts gewonnen haben.
Thern

@Nebr Ich verstehe nicht. Wenn wir eine große, leistungsfähige Studie durchführen (sagen wir 95% Leistung) und keine Beweise für die Nullhypothese finden (dh ein statistischer Hypothesentest ist auf der 5% -Stufe nicht signifikant), würde unsere Wahrscheinlichkeit nach dem Studium steigen im genannten Rahmen 0,05 betragen (bei einer Vorstudienwahrscheinlichkeit von 50%).
COOLSerdash

1
@Nebr Ihr letzter Kommentar macht keinen Sinn: Wenn das Ergebnis nicht aussagekräftig ist, kann es unmöglich ein "falsch positives" sein.
Amöbe sagt Reinstate Monica

1
@Nebr If you have a negative, you found evidence against the null- Was? Das Wort "negativ" hat genau die entgegengesetzte Bedeutung. Ein signifikanter p-Wert wird als "positives" Ergebnis bezeichnet. ein nicht signifikantes ist ein "negatives".
Amöbe sagt Reinstate Monica

1
@Nebr 100% Leistung bedeutet NICHT, dass wir, wenn H0 wahr ist, sicher sein können, dass wir immer H1 sehen werden. Es bedeutet, dass wenn H1 wahr ist, wir immer H1 sehen werden. Ich werde nicht versuchen, Ihren Kommentar weiter zu lesen, da jeder Satz verwirrend ist.
Amöbe sagt Reinstate Monica

12

Die beste Erklärung, die ich dafür gesehen habe, ist von jemandem, der eine Ausbildung in Mathematik hat.

H0H1H1H0H1H1H0H0


4
Vielleicht solltest du dir diesen Thread ansehen

10

Wenn Sie diese Konsequenz des Hypothesentests nicht mögen, aber nicht bereit sind, den vollen Sprung zu Bayes'schen Methoden zu machen, wie wäre es dann mit einem Konfidenzintervall?

4207820913[0.492,0.502]

1212


2
Was ist Bayesian über ein Konfidenzintervall?
kjetil b halvorsen

3
@kjetilbhalvorsen: Ein Konfidenzintervall ist nicht bayesianisch (ein glaubwürdiges Intervall wäre das), aber ein Konfidenzintervall liefert mehr Informationen über die Beweise als eine einfache Hypothesen-Ablehnung / Nicht-Ablehnung
Henry

9

Es wäre vielleicht besser zu sagen, dass die Nicht-Zurückweisung einer Nullhypothese an sich kein Beweis für die Nullhypothese ist. Wenn wir die volle Wahrscheinlichkeit der Daten betrachten, wobei die Datenmenge genauer berücksichtigt wird, können die gesammelten Daten die Parameter unterstützen, die unter die Nullhypothese fallen.

Wir sollten jedoch auch sorgfältig über unsere Hypothesen nachdenken. Insbesondere ist das Versäumnis, eine Punkt-Null-Hypothese abzulehnen, kein sehr guter Beweis dafür, dass die Punkt-Null-Hypothese wahr ist. Realistisch gesehen sammelt es Beweise dafür, dass der wahre Wert des Parameters nicht so weit vom fraglichen Punkt entfernt ist. Punkt-Null-Hypothesen sind in gewissem Maße eher künstliche Konstrukte, und in den meisten Fällen glauben Sie nicht wirklich, dass sie genau zutreffen werden.

Es wird viel vernünftiger, über die Nicht-Zurückweisung zu sprechen, die die Nullhypothese stützt, wenn Sie die Nullhypothese und die Alternativhypothese sinnvoll umkehren können und wenn Sie dabei Ihre neue Nullhypothese zurückweisen würden. Wenn Sie dies mit einer Standard-Punkt-Null-Hypothese versuchen, werden Sie sofort feststellen, dass Sie es niemals schaffen werden, ihr Komplement abzulehnen, da dann Ihre invertierte Null-Hypothese Werte enthält, die beliebig nahe am betrachteten Punkt liegen.

H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]


4
+1. Dies sollte meiner Meinung nach die akzeptierte Antwort sein. Ich verstehe nicht, warum es so wenige positive Stimmen hat.
Amöbe sagt Reinstate Monica

1
@amoeba, weil es spät geschrieben wurde, aber ich stimme zu und habe bereits +1 gegeben.
Tim

6

Es hängt vielmehr davon ab, wie Sie die Sprache verwenden. Nach der Entscheidungstheorie von Pearson und Neyman ist dies kein Beweis für die Null, aber Sie müssen sich so verhalten, als ob die Null wahr ist.

Die Schwierigkeit ergibt sich aus dem Modus Tollens. Bayes'sche Methoden sind eine Form des induktiven Denkens und als solche eine Form des unvollständigen Denkens. Nullhypothesenmethoden sind eine probabilistische Form des Modus Tollens und als solche Teil des deduktiven Denkens und daher eine vollständige Form des Denkens.

Modus tollens hat die Form "Wenn A wahr ist, dann ist B wahr und B ist nicht wahr; daher ist A nicht wahr." In dieser Form wäre es, wenn die Null wahr wäre, dann würden die Daten auf eine bestimmte Art und Weise erscheinen, sie würden nicht auf diese Art und Weise erscheinen, daher ist die Null (bis zu einem gewissen Grad des Vertrauens) nicht wahr (oder wird zumindest "gefälscht") . "

Das Problem ist, dass Sie "Wenn A, dann B und B." Daraus möchten Sie auf A schließen, aber das ist nicht gültig. "Wenn A dann B" schließt nicht aus, dass "wenn nicht A dann B" auch eine gültige Aussage ist. Betrachten Sie die Aussage "Wenn es ein Bär ist, dann kann er schwimmen. Es ist ein Fisch (kein Bär)." Die Aussagen sagen nichts über die Schwimmfähigkeit von Nichtbären aus.

Wahrscheinlichkeit und Statistik sind ein Zweig der Rhetorik und kein Zweig der Mathematik. Es ist ein starker Benutzer von Mathematik, aber kein Teil von Mathematik. Es existiert aus einer Vielzahl von Gründen, Überzeugung, Entscheidungsfindung oder Schlussfolgerung. Es erweitert die Rhetorik in eine disziplinierte Diskussion der Beweise.


1
+1 für die Erwähnung von Neyman und Pearson (siehe stats.stackexchange.com/questions/125541 ).
Amöbe sagt Reinstate Monica

5

Ich werde versuchen, dies mit einem Beispiel zu veranschaulichen.

μx¯H0:μ=μiμiμ0x¯μ

H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0


"Für welchen Wert von μ haben wir Beweise?" - Wir haben stärkere Anzeichen für Werte, die näher am Stichprobenmittelwert liegen, und schwächere Anzeichen für Werte, die weiter vom Stichprobenmittelwert entfernt sind. Wie stark oder schwach, hängt von Stichprobengröße und Varianz ab. Stimmt etwas mit dieser Interpretation nicht?
Atte Juvonen

Ja, das ist eine Fehlinterpretation. Der P-Wert ist nicht die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, oder die Beweiskraft zugunsten der Nullhypothese. In ähnlicher Weise können Sie eine Intervallschätzung mit einem Stichprobenmittelwert in der Mitte des Intervalls durchführen. Dies bedeutet jedoch nicht, dass die Wahrscheinlichkeit höher ist, dass der Populationsmittelwert in der Nähe der Mitte des Intervalls liegt. Im Kommentar von Dominic Comtois zu Ihrer Frage wird auf eine gute Erklärung für diese Fehlinterpretation verwiesen.
Macond

"Dies bedeutet nicht, dass eine höhere Wahrscheinlichkeit besteht, dass der Bevölkerungsdurchschnitt in der Mitte des Intervalls liegt." - Das kann nicht richtig sein. Ich habe die Zeitung gelesen, aber nichts gefunden, was dies bestätigen könnte.
Atte Juvonen

μμP(A|B)P(B|A)

4

x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

Zwei alternative Hypothesen

pH0pH0 H1μμμ

L(μ|X)=f(X|μ)

μ^μ^μ^f(μ|X)f(X|μ)f(μ|X)μ^. Dies führt zum Bayes-Theorem

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

μμ^μ

H1H0H0usw. Wenn Sie sie nach Zahlen fragen, gibt sie sie Ihnen, aber die Zahlen wären nicht vergleichbar . Das Problem ist, dass der Hypothesentest / das Orakel in einem Rahmen arbeitet, in dem sie nur auf die Fragen schlüssige Antworten geben kann, in denen sie fragt, ob die Daten mit einer bestimmten Hypothese übereinstimmen , und nicht umgekehrt, da Sie andere Hypothesen nicht berücksichtigen.


2

Folgen wir einem einfachen Beispiel.

Meine Nullhypothese ist, dass meine Daten einer Normalverteilung folgen. Die alternative Hypothese ist, dass die Verteilung für meine Daten nicht normal ist.

Ich ziehe zwei Zufallsstichproben aus einer Gleichverteilung auf [0,1]. Mit nur zwei Stichproben kann ich nicht viel anfangen, daher könnte ich meine Nullhypothese nicht ablehnen.

Heißt das, ich kann schließen, dass meine Daten der Normalverteilung entsprechen? Nein, es ist eine gleichmäßige Verteilung !!

Das Problem ist, dass ich in meiner Nullhypothese die Normalitätsannahme gemacht habe. Daher kann ich nicht zu dem Schluss kommen, dass meine Annahme richtig ist, weil ich sie nicht ablehnen kann.


3
Ich glaube nicht, dass eine Studie mit 2 Stichproben als "Studie" qualifiziert ist. Sobald wir eine angemessene Anzahl von Datenpunkten zeichnen, funktioniert dieses Beispiel nicht mehr. Wenn wir 1000 Datenpunkte zeichnen und sie wie eine gleichmäßige Verteilung aussehen, haben wir Beweise gegen unsere Nullhypothese. Wenn wir 1000 Datenpunkte zeichnen und diese wie eine Normalverteilung aussehen, haben wir Beweise für unsere Nullhypothese.
Atte Juvonen

1
@AtteJuvonen Meine Antwort ist nicht der Versuch zu definieren, was eine Studie sein soll. Ich versuche einfach, ein einfaches Beispiel zu geben, um den Mangel an statistischer Kraft für die Frage zu veranschaulichen. Wir alle wissen, dass 2 Proben schlecht sind.
SmallChess

4
Richtig. Ich sage nur, dass Ihr Beispiel das Problem veranschaulicht, Schlussfolgerungen aus zwei Beispielen zu ziehen. Es zeigt nicht das Problem, Beweise für eine Nullhypothese zu ziehen.
Atte Juvonen


0

Nein, es handelt sich nicht um Beweise, es sei denn, Sie haben Beweise dafür, dass es Beweise sind. Ich versuche nicht süß zu sein, eher wörtlich. Sie haben nur dann eine Wahrscheinlichkeit, solche Daten zu sehen, wenn Sie davon ausgehen, dass der Nullwert wahr ist. Das ist ALLES, was Sie aus dem p-Wert erhalten (falls dies der Fall ist, da der p-Wert auf Annahmen selbst basiert).

Können Sie eine Studie vorlegen, die zeigt, dass für Studien, die die Nullhypothese "nicht unterstützen", die Mehrheit der Nullhypothesen wahr ist? Wenn Sie DIESE Studie finden können, spiegelt Ihr Versagen, die Nullhypothesen zu widerlegen, zumindest eine SEHR verallgemeinerte Wahrscheinlichkeit wider, dass die Null wahr ist. Ich wette, Sie haben diese Studie nicht. Da Sie keine Hinweise darauf haben, dass Nullhypothesen auf der Grundlage von p-Werten wahr sind, müssen Sie einfach mit leeren Händen davon gehen.

Sie haben mit der Annahme begonnen, dass Ihr Nullwert wahr ist, um diesen p-Wert zu erhalten. Der p-Wert kann also nichts über den Nullwert aussagen, nur über die Daten. Denk darüber nach. Es ist eine einseitige Folgerung - Periode.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.