Jetzt, wo ich die Nullhypothese verworfen habe, was kommt als nächstes?

23

Ich habe die Nullhypothese immer wieder abgelehnt oder nicht abgelehnt . Wenn Sie den Fall nicht ablehnen, kommen Sie zu dem Schluss, dass es nicht genügend Beweise für die Ablehnung gibt und Sie "weitermachen" (dh Sie sammeln entweder mehr Daten, beenden das Experiment usw.).

Aber wenn Sie „tun“ lehnen die Nullhypothese, die Bereitstellung einige Beweise für die alternative Hypothese kann man nicht wirklich „beweisen“ , dass Ihre alternative Hypothese in der Tat gilt.

Also, was sind die gemeinsamen nächsten Schritte, wenn Sie die Nullhypothese ablehnen? Welche Instrumente / Techniken werden angewendet, um "das Problem weiter zu analysieren", um die Ergebnisse schlüssiger zu machen? Was sind die logischen "nächsten Schritte" als Statistiker, die eine weitere Analyse rechtfertigen?

Beispielsweise:

$H_0: \mu_1 = \mu_0$

(sagen wir, wir kennen die erwartete Richtung) $H_1: \mu_1 > \mu_0$

Sobald wir die Nullhypothese auf einer bestimmten Signifikanzstufe ablehnen, haben wir "einige Beweise" dafür, dass die Alternative wahr ist, aber wir können diese Schlussfolgerung nicht ziehen. Wenn ich diese Schlussfolgerung wirklich endgültig ziehen möchte (verzeihen Sie das Doppelwortspiel), was soll ich tun?

Ich habe diese Frage während meiner Studienzeit noch nie überlegt, aber jetzt, wo ich eine Menge Hypothesentests mache, frage ich mich, was noch vor mir liegt :)

hypothesis-testing

— PhD
quelle

2

Möglicherweise von Interesse: Warum ist "statistisch signifikant" nicht ausreichend?

— gung - Wiedereinsetzung von Monica

3

Im Allgemeinen sollten Ihre Aktionen nach Ihrer Entscheidung auch vor dem Testen ausgewählt werden (wie sonst können Sie die Kosten für die beiden Arten von Fehlern abwägen und so ein vernünftiges

auswählen ?). Zumindest würden Sie wahrscheinlich die geschätzten Effektgrößen berücksichtigen. Die Null ist nicht haltbar (nach von Ihnen gewählten Kriterien - wenn das für Sie nicht ausreicht, was wäre das?). Welche Werte sind also stattdessen plausibel? Welche Werte für

wären z. B. in Ihrem angegebenen Test angesichts der Daten plausibel?

α

$\alpha$

μ_{1} - μ_{0}

$\mu_1-\mu_0$

— Glen_b

10

Im Allgemeinen können Sie Ihre Schätzung der Parameter, die Sie möglicherweise mit mehr Daten testen, weiter verbessern. Wenn Sie die Datenerfassung stoppen, sobald ein Test einen beliebigen Grad an Signifikanz erreicht hat, können Sie gute Schlussfolgerungen ziehen. Dass Analysten ein signifikantes Ergebnis als Zeichen dafür missverstehen, dass die Arbeit erledigt ist, ist eine von vielen unbeabsichtigten Konsequenzen des Neyman-Pearson-Frameworks, wonach Menschen p- Werte als Grund interpretieren, je nachdem, ob sie eine Null ablehnen oder nicht Auf welche Seite der kritischen Schwelle fallen sie?

Ohne Berücksichtigung der Bayes'schen Alternativen zum frequentistischen Paradigma (hoffentlich von jemand anderem) sind die Konfidenzintervalle weiterhin aussagekräftiger, weit über den Punkt hinaus, an dem eine grundlegende Nullhypothese zurückgewiesen werden kann. Wenn Sie davon ausgehen, dass Sie mehr Daten sammeln, würde Ihr grundlegender Signifikanztest nur eine noch größere Signifikanz erzielen (und nicht aufzeigen, dass Ihre frühere Signifikanzfeststellung falsch positiv war), könnten Sie dies für nutzlos halten, da Sie die Null in beiden Fällen ablehnen würden. In diesem Szenario würde Ihr Konfidenzintervall um den betreffenden Parameter jedoch weiter abnehmen, wodurch sich das Konfidenzniveau verbessern würde, mit dem Sie Ihre interessierende Grundgesamtheit genau beschreiben können.

$\mu=0$

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

t.test(rnorm(99)) $\alpha=.05$ rnorm

set.seed(8);t.test(rnorm(99,1)) $\mu=[.69,1.12]$

$\mu=.8$ mu=.8

set.seed(8);t.test(rnorm(999,1),mu=.8) $\mu=0$ $\mu=.8$ $\mu=[.90,1.02]$ $\mu=.89$

$H_0:\mu=.9$ set.seed(9);t.test(rnorm(999,1),mu=.9)

Das Testen immer strengerer Nullhypothesen oder besser gesagt, die Konzentration auf das Verringern der Konfidenzintervalle ist nur eine Möglichkeit, um fortzufahren. Natürlich bilden die meisten Studien, die Nullhypothesen ablehnen, die Grundlage für andere Studien, die auf der alternativen Hypothese aufbauen. Wenn ich zum Beispiel eine alternative Hypothese prüfe, dass eine Korrelation größer als Null ist, könnte ich als Nächstes in einer Folgestudie nach Mediatoren oder Moderatoren suchen ... und während ich dabei bin, möchte ich auf jeden Fall sicherstellen, dass dies der Fall ist Ich könnte das ursprüngliche Ergebnis wiederholen.

Ein weiterer zu berücksichtigender Ansatz ist das Testen der Äquivalenz . Wenn Sie den Schluss ziehen möchten, dass ein Parameter innerhalb eines bestimmten Bereichs möglicher Werte liegt, der sich nicht nur von einem einzelnen Wert unterscheidet, können Sie den Wertebereich angeben, in dem der Parameter gemäß Ihrer herkömmlichen alternativen Hypothese liegen soll, und ihn testen gegen eine andere Menge von Nullhypothesen, die zusammen die Möglichkeit darstellen, dass der Parameter außerhalb dieses Bereichs liegt. Diese letzte Möglichkeit ähnelt möglicherweise am ehesten dem, was Sie beim Schreiben im Sinn hatten:

Wir haben "einige Beweise" dafür, dass die Alternative wahr ist, aber wir können diese Schlussfolgerung nicht ziehen. Wenn ich diese Schlussfolgerung wirklich abschließend ziehen möchte ...

set.seed(8)rnorm(99)rnorm(99,1)-1 $\mu=.8$ $-.2\le\mu\le.2$

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tost $\mu=[-.27,.09]$ rnorm(999) $\mu=[-.09,.01]$

Ich denke immer noch, dass das Konfidenzintervall interessanter ist als das Ergebnis des Äquivalenztests. Es stellt dar, was die Daten darauf hindeuten, dass der Populationsmittelwert spezifischer ist als die Alternativhypothese, und legt nahe, dass ich ziemlich sicher sein kann, dass er in einem noch kleineren Intervall liegt, als ich in der Alternativhypothese angegeben habe. Um das zu demonstrieren, werde ich meine unrealistischen Simulationsfähigkeiten noch einmal missbrauchen und "replizieren" mit set.seed(7);tost(rnorm(999),epsilon=.09345092): sicher genug, p = .002.

— Nick Stauner
quelle

Erleuchtend! Könnten Sie bitte ein kurzes und schmutziges Beispiel für den letzten Teil zeigen, in dem Sie über Äquivalenztests sprechen? Es wäre wirklich hilfreich, auf hoher Ebene zu sehen, wie es anwendbar sein könnte.

— PhD

@PhD: fertig. Es ist allerdings "schneller und schmutziger" als "auf hohem Niveau", denke ich. Ich bin neu darin, mich auf Äquivalenz zu testen, und wie Sie sehen werden, bin ich nicht gerade begeistert.

— Nick Stauner

10

Beachten Sie zunächst, dass @Nick Stauner einige sehr wichtige Argumente bezüglich des optionalen Stopps vorbringt . Wenn Sie die Daten wiederholt testen, während Stichproben eingehen, und stoppen, sobald ein Test von Bedeutung ist, ist Ihnen ein signifikantes Ergebnis so gut wie garantiert. Ein garantiertes Ergebnis ist jedoch praktisch wertlos.

Im Folgenden werde ich meine besten Versuche vorstellen, eine deduktivistische, skeptische, falsifikationistische Position zu erläutern. Es ist sicherlich nicht das Einzige, aber ich denke, es ist eher ein Mainstream, oder zumindest eines mit ein bisschen Tradition.

Soweit ich weiß, hat Fisher Signifikanztests ursprünglich als ersten Schritt bei der Datenexploration eingeführt - um festzustellen, welche Faktoren es wert sein könnten, weiter untersucht zu werden. Sofern die von Ihnen getestete Nullhypothese nicht tatsächlich die kritische Hypothese war, von der Ihre bevorzugte Theorie abhing (unwahrscheinlich), war Ihr erster Test in gewisser Weise eher explorativer Natur. Unter den möglichen Schritten nach der Erforschung sehe ich

Weitere Erforschung
Parameter Schätzung
Vorhersage & Bestätigung

Weitere Untersuchungen bestehen aus Folgetests, bei denen Sie versuchen, zu schließen, ob Variablen, über die Sie Informationen haben, moderat sind oder mit Ihrem Effekt interagieren. Zum Beispiel spielt vielleicht das Alter der Teilnehmer eine Rolle? Beachten Sie, dass solche Analysen eindeutig als explorativ gekennzeichnet sein müssen oder im Grunde genommen lügen. Wenn Sie auf etwas stoßen, muss es zuerst bestätigt werden. Im Allgemeinen sollten Sie immer klar sein - sowohl in Ihren Gedanken als auch in Ihren Schriften -, wann Sie explorativ und wann konfirmatorisch arbeiten.

Als nächstes , wenn Sie festgestellt haben , dass Sie kein Vertrauen in einem Parameterwert haben genau Null sind - sobald Sie sich entschieden haben , jetzt werden Sie den Faktor im Test prüfen haben etwas Einfluss - ein denkbar nächster Schritt weiter sein könnte der genaue Wert Schätzung des Parameters . Zum Beispiel haben Sie vorerst nur einen Wert, 0, ausgeschlossen (vorausgesetzt, es handelt sich um einen zweiseitigen Test). Ihre Daten stellen jedoch auch viele weitere mögliche Werte in Frage.

$\alpha$ $\alpha$

Hume ist dafür bekannt, dass wir eine Aussage niemals induktiv als richtig erweisen können. Im Allgemeinen sind nicht-triviale Hypothesen immer viel einfacher zu fälschen als zu stützen; Im Prinzip leicht zu fälschen (indem man nicht trivial ist und präzise Vorhersagen trifft), aber noch nicht gefälscht zu werden, ist in der Tat eine der höchsten Tugenden einer Theorie.

Ein CI bringt Sie also nicht dazu, einen bestimmten Wert zu beweisen. Die Kandidatenmenge wird jedoch eingegrenzt. Vielleicht helfen Ihnen die einzigen Kandidaten bei der Entscheidung zwischen zwei mit H0 unvereinbaren Theorien. Zum Beispiel ist vielleicht 0 ausgeschlossen, aber Theorie 1 sagt einen Wert um 5 voraus und Theorie 2 sagt einen Wert um 15 voraus. Wenn Ihr 95% -KI 5 einschließt, aber 15 ausschließt, haben Sie jetzt auch das Vertrauen in Theorie 2, aber Theorie verloren 1 bleibt im Spiel. Beachten Sie, dass dies tatsächlich unabhängig von der Signifikanz Ihres ersten Tests ist - auch wenn 0 zu den nicht abgelehnten Werten gehört, werden viele Werte abgelehnt. Vielleicht waren für einige andere Forscher einige dieser Werte von Interesse.

Nachdem Sie Ihr Verständnis des vorliegenden Effekts etwas präzisiert haben, können Sie idealerweise eine genauere Vorhersage für ein anschließendes Bestätigungsexperiment treffen , um eine genauere Hypothese zu testen, die Sie aus Ihrer aktuellen Analyse ableiten können. Zugegeben, Ihre anfängliche statistische Nullhypothese abzulehnen , war nicht so streng wie ein Test Ihrer ursprünglichen Forschungshypothese , nicht wahr? Viel mehr Erklärungen als die, die Sie bevorzugen, hängen nicht von H0 ab. Da Sie nie Gefahr liefen, H0 tatsächlich zu akzeptieren, waren Sie auch nicht in der Lage, Ihre favorisierte Theorie zu verfälschen ! Sie brauchen also einen strengeren Test. Wahrscheinlich ist das genau das, was Sie wollen. Sie wollen Ihre Theorie nicht beweisen, Sie wollen sie immer strengeren Prüfungen unterziehen und versuchen, sie zu fälschen. Solchen echten (aber fairen) Versuchen, dies zu widerlegen, standzuhalten, ist das Beste, was eine Theorie leisten kann. Für einen strengen Test benötigen Sie jedoch eine genauere Theorie als "0 ist es nicht".

Sie haben jetzt mehrere wichtige Fakten zu einer konfirmatorischen Studie erfahren. Sie haben beispielsweise eine Vorstellung von der fraglichen Varianz und Effektstärke, sodass Sie die erforderliche Stichprobengröße für eine Folgestudie über die Leistungsanalyse abschätzen können. Sie können auch einen bestimmten Wert vorhersagen und einen Bereich von praktischer Äquivalenz / SEIL um diesen Wert herum annehmen . Sie werden niemals beweisen können, dass dieser spezifische Wert der wahre Wert ist. Wenn jedoch das CI aus einem Folgeexperiment vollständig in Ihren ROPE-Bereich fällt, haben Sie bestätigende Beweise für Ihre Theorie (und möglicherweise die Konkurrenz in Schwierigkeiten gebracht).

— jona
quelle

6

Die Idee, dass man einen positiven wissenschaftlichen Satz nicht beweisen, sondern nur widerlegen kann, ist ein Prinzip von Poppers Falsifikationismus . Ich bin damit einverstanden, dass Sie nicht beweisen können, dass ein Effekt genau einem bestimmten Punktwert entspricht (vgl. Meine Antwort hier: Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren? ). Na und?

$p$ -Werte werden häufig missverstanden, und Hypothesentests werden für Aufgaben verwendet, die sie logischerweise nicht erfüllen können. Beispielsweise sollten Hypothesentests nicht zur Erstellung von Hypothesen oder zur Auswahl von Variablen verwendet werden. Darüber hinaus müssen bei Beobachtungsdaten im Wesentlichen alle Nullhypothesen falsch sein, so dass das Testen solcher Hypothesen wenig Sinn macht. Wissenschaftler haben jedoch oft A-priori-Hypothesen, die von aktuellen Theorien vorgeschlagen werden, die sie testen möchten, und in einem echten Experiment könnte eine Null wahr sein, so dass es durchaus sinnvoll ist, sie zu testen. In der Regel haben Forscher einen Grund zu der Annahme, dass die Null falsch sein könnte. Daher ist ein signifikantes Ergebnis in Verbindung mit einem starken Experiment eine gültige Information.

Sie können jederzeit Konfidenzintervalle festlegen, um ein klareres Bild der Genauigkeit Ihrer Schätzung zu erhalten, und weitere Daten erfassen, um die Genauigkeit zu erhöhen. Aus wirtschaftlicher Sicht werden Sie jedoch sinkende Renditen erzielen . Irgendwann glauben Sie einfach nicht, dass die Nullhypothese eine vernünftige Darstellung des untersuchten Phänomens liefert. In welchem Fall stören Sie?

Wenn es andere in Ihrem Bereich gibt, die noch nicht überzeugt sind, aber mit mehr (gleichen) Daten arbeiten, könnten Sie fortfahren, aber dies scheint eine ungewöhnliche Situation zu sein. Mir erscheint es wahrscheinlicher, dass die Skeptiker andere, inhaltliche Bedenken haben, ob diese Untersuchungslinie ausreichend aussagekräftig in Bezug auf die zugrunde liegende Frage ist. Daher müssen Sie die Art dieser Bedenken ermitteln und, wenn Sie der Meinung sind, dass sie die Arbeit verdienen, nach verschiedenen Daten suchen, mit denen die anstehenden Probleme angemessener angegangen werden. Sie könnten beispielsweise versuchen, den Befund mit einer anderen Kennzahl, in einer anderen Einstellung und / oder mit anderen Kontrollbedingungen zu replizieren.

Andererseits kann jeder (mehr oder weniger) mit Ihren Daten und Schlussfolgerungen zufrieden sein (Glückwunsch!). Unter solch glücklichen Umständen können Sie zwei Richtungen verfolgen, um Ihr Forschungsprogramm voranzutreiben:

Ein reduktionistischer Ansatz würde versuchen, die Mechanismen zu verstehen, die den von Ihnen festgelegten Effekt hervorrufen. In statistischen Begriffen würden Sie häufig nach Mediatoren suchen und / oder das Muster der Kausalkräfte verfeinern , die die Variablen, die Sie gezeigt haben, in Beziehung setzen.
$B$ $C$ $A$ $A$

tl; dr: Wenn Sie genügend Beweise dafür haben, dass die Null falsch ist, überlegen Sie sich, welche anderen theoretisch motivierten Fragen Sie beantworten und weitermachen könnten.

— gung - Wiedereinsetzung von Monica
quelle

0

Ich möchte hinzufügen, dass Ihre Frage mich an mein jüngeres Ich erinnert: Ich wollte unbedingt meine Hypothese beweisen, weil ich nicht wusste, wie ich "die Hypothese war falsch" in einer Weise schreiben sollte, die dazu beitrug, das Papier, das ich schrieb, zu verbessern . Aber dann wurde mir klar, dass die "verdammt meine absolut schöne Hypothese nicht bewiesen werden kann" auch wissenschaftlichen Wert hat: 1. Denken Sie darüber nach, WARUM Ihre Hypothese kein Wasser enthält. Es ist ein Problem mit den Daten oder wahrscheinlich etwas mit der Hypothese selbst? 2. Was sind die Konsequenzen für ältere Forschungen?

Als Beispiel: Ich habe meine Masterarbeit über ethnische Konflikte mit einem damals neuen Datensatz geschrieben, der größer war als die vorherigen Datensätze. Ich habe mehrere umstrittene Hypothesen wie "Öl treibt ethnische Konflikte an" oder "Bergregressionen führen eher zu Konflikten". Ich konnte nicht nachweisen, dass Öl ethnische Konflikte verursacht - aber ich schrieb zwei Seiten darüber, wie sich die Qualität des verfügbaren Öl-Datensatzes auf die Analyse auswirkte (der Datensatz selbst ist eine Zeitreihe, der Ölquellen-Datensatz nicht). Die These "Berge verursachen Konflikte" war ebenfalls ein Misserfolg - aber ein fruchtbarer: Frühere Forschungen analysierten diese These mit Daten auf Länderebene (z. B. mittlere Größe des Landes oder so).

Denken Sie daran: Das Widerlegen einer Hypothese ist kein Versagen, sondern ein Ergebnis, das so gut ist wie eine bewährte Hypothese.

— Christian Sauer
quelle

Die Hypothesen, die Sie erwähnen, sind keine (herkömmlichen) Nullhypothesen. Ich denke, Sie haben vielleicht den Punkt des OP verpasst.

— Nick Stauner

0

Es gibt eine Methode zum Kämmen von Wahrscheinlichkeiten über die hier beschriebenen Studien hinweg . Sie sollten die Formel nicht blind anwenden, ohne das Ergebnismuster zu berücksichtigen.

— David Lane
quelle