Zweischwänzige Tests… ich bin einfach nicht überzeugt. Was ist der Punkt?

59

Der folgende Auszug stammt aus dem Beitrag: Was sind die Unterschiede zwischen einseitigen und zweiseitigen Tests? , auf der Statistik-Hilfeseite der UCLA.

... überlegen Sie, welche Konsequenzen das Ausbleiben eines Effekts in die andere Richtung hat. Stellen Sie sich vor, Sie haben ein neues Medikament entwickelt, von dem Sie glauben, dass es eine Verbesserung gegenüber einem vorhandenen Medikament darstellt. Sie möchten Ihre Fähigkeit maximieren, die Verbesserung zu erkennen, und entscheiden sich für einen einseitigen Test. Dabei wird nicht geprüft, ob das neue Medikament möglicherweise weniger wirksam ist als das vorhandene.

Nachdem ich die absoluten Grundlagen des Hypothesentests erlernt und mich mit einem Test gegen zwei Tests befasst habe, verstehe ich die grundlegende Mathematik und die verbesserte Erkennungsfähigkeit von Tests mit einem Schwanz usw. Aber ich kann mich einfach nicht um meinen Kopf wickeln um eine Sache ... Was ist der Sinn? Ich verstehe wirklich nicht, warum Sie Ihr Alpha zwischen den beiden Extremen aufteilen sollten, wenn Ihr Sample-Ergebnis nur in der einen oder der anderen oder in keiner sein kann.

Nehmen Sie das Beispielszenario aus dem oben zitierten Text. Wie könnten Sie möglicherweise "nicht testen", um ein Ergebnis in die entgegengesetzte Richtung zu erhalten? Sie haben Ihren Stichprobenmittelwert. Sie haben Ihre Bevölkerung bedeuten. Einfache Arithmetik sagt Ihnen, was höher ist. Was gibt es in die entgegengesetzte Richtung zu testen oder nicht zu testen? Was hält Sie davon ab, mit der entgegengesetzten Hypothese von vorne anzufangen, wenn Sie deutlich sehen, dass der Stichprobenmittelwert in die andere Richtung abweicht?

Ein weiteres Zitat von derselben Seite:

Die Auswahl eines einseitigen Tests nach dem Ausführen eines zweiseitigen Tests, bei dem die Nullhypothese nicht verworfen wurde, ist nicht angemessen, auch wenn der zweiseitige Test nahezu signifikant war.

Ich gehe davon aus, dass dies auch für das Umschalten der Polarität Ihres einseitigen Tests gilt. Aber wie ist dieses "behandelte" Ergebnis weniger gültig, als wenn Sie einfach den richtigen einseitigen Test gewählt hätten?

Klar, ich vermisse hier einen großen Teil des Bildes. Alles scheint einfach zu willkürlich. Was es ist, denke ich, in dem Sinne, dass das, was "statistisch signifikant" bedeutet - 95%, 99%, 99,9% ..., zunächst willkürlich ist.

hypothesis-testing statistical-significance inference

— FromTheAshes
quelle

18

Dies scheint mir eine sehr gute Frage zu sein, +1.

— gung - Wiedereinsetzung von Monica

5

Während es absolut klar ist, dass Sie Ihr Experiment und Ihre Tests entwerfen sollten, bevor Sie Daten sammeln, finde ich ihr Beispiel für Medikamente ziemlich faszinierend, da neue Medikamente oft mit einem einseitigen Test ohne viel Aufschrei getestet werden .

— P-Gn

3

@ user1735003 Ein ironischer Artikel, der auftaucht, wenn man bedenkt, dass viele stimmungs- / verhaltensregulierende pharmazeutische Studien einer zunehmenden Beobachterbias-Prüfung unterzogen werden. Ein interessanter Cochrane auf Ritalin hier . "Behauptete Überlegenheit des Placebos" würde jeder Trialist als "Schaden" bezeichnen, daher halte ich es nicht im Geringsten für unvorstellbar. In diesen Studien ist das Signal jedoch auf unerwünschte Ereignisse zurückzuführen, wenn die Studien aufgrund von Schäden abgebrochen werden.

— AdamO

10

"Sie haben den Mittelwert Ihrer Stichprobe. Sie haben den Mittelwert Ihrer Grundgesamtheit ... Was hindert Sie daran, mit der entgegengesetzten Hypothese von vorne zu beginnen, wenn Sie klar erkennen, dass der Mittelwert der Stichprobe in die andere Richtung abweicht?" . Nein, der springende Punkt beim Testen von Hypothesen ist, dass Sie nicht den Populationsmittelwert haben und den Stichprobenmittelwert verwenden, um eine Annahme über den Populationsmittelwert (die Nullhypothese) zu testen. Es ist also nicht klar erkennbar, dass der Stichprobenmittelwert weit davon entfernt ist , denn genau das, was Sie testen, ist nicht selbstverständlich.

— STATUS

1

Das Problem ist, dass Sie häufig die Polarität nicht kennen und daher den zweiseitigen Test durchführen müssen. Stellen Sie sich vor, Sie stecken ein Voltmeter in die Gleichstromversorgung, wenn Sie nicht wissen, welcher Stecker POSITIV ist

— Aksakal

46

Stellen Sie sich die Daten als die Spitze des Eisbergs vor - alles, was Sie über dem Wasser sehen können, ist die Spitze des Eisbergs, aber in Wirklichkeit sind Sie daran interessiert, etwas über den gesamten Eisberg zu lernen.

Statistiker, Datenwissenschaftler und andere, die mit Daten arbeiten, achten darauf, dass das, was sie über der Wasserlinie sehen, keinen Einfluss auf die Bewertung dessen hat, was sich unter der Wasserlinie verbirgt. Aus diesem Grund neigen sie in einer Hypothesentestsituation dazu, ihre Null- und Alternativhypothesen zu formulieren, bevor sie die Spitze des Eisbergs sehen, basierend auf ihren Erwartungen (oder deren Fehlen), was passieren könnte, wenn sie den Eisberg in seiner Gesamtheit betrachten könnten .

Das Betrachten der Daten zur Formulierung Ihrer Hypothesen ist eine schlechte Praxis und sollte vermieden werden - es ist, als würde man den Karren vor das Pferd stellen. Erinnern Sie sich daran, dass die Daten aus einer einzelnen Stichprobe stammen, die (hoffentlich unter Verwendung eines Zufallsauswahlmechanismus) aus der Zielpopulation / dem interessierenden Universum ausgewählt wurde. Die Stichprobe weist ihre eigenen Besonderheiten auf, die die zugrunde liegende Grundgesamtheit widerspiegeln können oder nicht. Warum sollten Ihre Hypothesen einen schmalen Teil der Bevölkerung widerspiegeln anstatt die gesamte Bevölkerung?

Eine andere Möglichkeit, dies zu bedenken, besteht darin, dass jedes Mal, wenn Sie eine Stichprobe aus Ihrer Zielpopulation auswählen (unter Verwendung eines Zufallsauswahlmechanismus), die Stichprobe unterschiedliche Daten liefert. Wenn Sie die Daten (die Sie nicht verwenden sollten !!!) verwenden, um Ihre Spezifikation der Null- und Alternativhypothesen zu bestimmen, werden Ihre Hypothesen über die gesamte Karte verteilt, was im Wesentlichen von den eigenwilligen Merkmalen jeder Stichprobe abhängt. In der Praxis ziehen wir natürlich nur eine Stichprobe, aber es wäre ein sehr beunruhigender Gedanke zu wissen, dass jemand anderes, der dieselbe Studie mit einer anderen Stichprobe derselben Größe durchführt, seine Hypothesen ändern müsste, um die Realität von widerzuspiegeln ihre Probe.

Einer meiner Hochschulprofessoren sagte sehr weise: "Die Stichprobe interessiert uns nicht, außer dass sie etwas über die Bevölkerung aussagt . " Wir möchten unsere Hypothesen formulieren, um etwas über die Zielpopulation zu erfahren, nicht über die Stichprobe, die wir zufällig aus dieser Population ausgewählt haben.

— Isabella Ghement
quelle

1

@ subhashc.davar: Nur weil du die Relevanz meiner Antwort nicht siehst, heißt das nicht, dass jemand anderes es nicht tut. Bitte beachten Sie, dass die Antworten für die gesamte Community gelten, nicht nur für die Person, die die Frage gestellt hat. Ich würde gerne meine Antwort löschen, wenn Sie dies ernst nehmen.

— Isabella Ghement

7

@ subhashc.davar Ein Beispiel kann helfen: Angenommen, Sie testen, ob ein Snack die Leistung beeinträchtigt. Sie führen das Experiment durch und finden bei den Snackern eine leichte Punktezunahme. Toll! Führen Sie einen einseitigen Test durch, um festzustellen, ob Snacker> Nicht-Snacker sind. Problem: Was hätten Sie getan, wenn Sie eine Probe gezogen hätten, bei der Snacker schlechter abschnitten? Hätten Sie einen einseitigen Test für Snacker durchgeführt, die keine Snacker sind? In diesem Fall liegt ein Fehler vor, und die Beispielidentitäten leiten Ihre Tests.

— RM

21

Eine Anekdote von meinem Professor: "Wir besuchten die neugeborene Tochter eines Freundes in einer Entbindungsstation. 20 Kinder und 18 der 20 trugen rosa Hüte. Also tat ich, was jeder Statistiker tun würde: einen p-Wert für das Geschlecht zu berechnen, nämlich 50 / 50. Es war sehr statistisch signifikant. Also, wer möchte diese Arbeit mit mir schreiben? Niemand? Warum? Sie können keine Daten verwenden, die eine Hypothese generiert haben, um eine Hypothese zu testen. "

— AdamO

4

@AdamO Ich fand Ihren Kommentar eine bessere Erklärung als die Antwort selbst. Ich würde den letzten Satz mit "Sie sollten nicht dieselben Daten verwenden, mit denen Sie Ihre Hypothese erstellt haben, um auch Ihre Hypothese zu testen." Eine verwandte Implikation ist, dass es in Ordnung ist, Ihre Hypothese basierend auf dem Ergebnis des Tests zu ändern, den Sie zuvor ausgewählt haben. Aber Sie sollten dann Ihre neue Hypothese mit neuen Daten testen.

— Kenny Evitt

3

@KennyEvitt ja genau richtig. Zufällige Befunde sind wichtig und sollten gemeldet werden, sie sollten jedoch nicht als vorgegebene Hypothesen verkauft werden.

— AdamO

18

Ich denke, wenn Sie über Ihre Frage nachdenken, ist es hilfreich, wenn Sie versuchen, das Ziel / die Verkaufsargumente des Nullhypothesen-Signifikanztests (NHST) im Auge zu behalten. Es ist nur ein Paradigma (wenn auch ein sehr populäres) für statistische Inferenz, und die anderen haben auch ihre eigenen Stärken (siehe hier für eine Diskussion von NHST in Bezug auf Bayesianische Inferenz). Was ist der große Vorteil von NHST ?: Langfristige Fehlerkontrolle . Wenn Sie sich an die Regeln von NHST halten (und manchmal ist das ein sehr großes Problem ), sollten Sie ein gutes Gefühl dafür haben, wie wahrscheinlich es ist, dass Sie langfristig mit den von Ihnen gemachten Schlussfolgerungen falsch liegen.

Eine der Persnickety-Regeln von NHST ist, dass Sie, ohne weitere Änderungen an Ihrem Testverfahren, nur einen Blick auf Ihren Test von Interesse werfen dürfen. In der Praxis ignorieren Forscher häufig diese Regel (siehe Simmons et al., 2012) und führen nach dem Hinzufügen von Datenwellen mehrere Tests durch und überprüfen deren $p$ -Werte nach dem Hinzufügen / Entfernen von Variablen zu ihren Modellen usw. Das Problem dabei ist, dass Forscher in Bezug auf das Ergebnis von NHST selten neutral sind; Sie sind sich sehr wohl bewusst, dass signifikante Ergebnisse eher veröffentlicht werden als nicht signifikante Ergebnisse (aus Gründen, die sowohl falsch als auch legitim sind; Rosenthal, 1979). Forscher sind daher häufig motiviert, Daten hinzuzufügen / Modelle zu ändern / Ausreißer auszuwählen und wiederholt zu testen, bis sie einen signifikanten Effekt "aufdecken" (siehe John et al., 2011, eine gute Einführung).

Ein kontraproduktives Problem wird durch die oben in Dienes (2008) beschriebenen Praktiken verursacht: Wenn die Forscher ihre Stichprobe / ihr Design / ihre Modelle so lange anpassen, bis die Signifikanz erreicht ist, werden die gewünschten langfristigen Fehlerraten falsch positiver Befunde (häufig ) und falsch-negative Befunde (oft ) nähern sich jeweils 1.0 und 0.0 (dh Sie lehnen immer ab , sowohl wenn es falsch ist als auch wenn es wahr ist). $\alpha =.05$ $\beta =.20$ $H_0$

Im Zusammenhang mit Ihren spezifischen Fragen verwenden Forscher standardmäßig zweiseitige Tests, wenn sie keine besonderen Vorhersagen in Bezug auf die Richtung des Effekts treffen möchten. Wenn sie falsch raten und einen einseitigen Test in Richtung des Effekts durchführen, wird ihr langfristiges aufgeblasen. Wenn sie sich beschreibende Statistiken ansehen und einen einseitigen Test durchführen, der auf ihrem Augapfel des Trends basiert, wird ihr langfristiges aufgeblasen. Sie mögen denken, dass dies in der Praxis kein großes Problem ist, dass die Werte ihre langfristige Bedeutung verlieren, aber wenn sie ihre Bedeutung nicht behalten, stellt sich die Frage, warum Sie einen Ansatz verwenden, um darauf zu schließen priorisiert die langfristige Fehlerkontrolle. $\alpha$ $\alpha$ $p$

Schließlich (und je nach persönlicher Präferenz) hätte ich weniger Probleme, wenn Sie zuerst einen zweiseitigen Test durchgeführt hätten, ihn für nicht signifikant befunden hätten und dann den einseitigen Test in die Richtung durchgeführt hätten, die der erste Test implizierte, und fand es signifikant, wenn (und nur wenn) Sie eine strikte bestätigende Replikation dieses Effekts in einer anderen Stichprobe durchführten und die Replikation in derselben Veröffentlichung veröffentlichten. Die explorative Datenanalyse - mit einer flexiblen Analysepraxis, die die Fehlerrate erhöht - ist in Ordnung, solange Sie in der Lage sind, Ihren Effekt in einer neuen Probe ohne dieselbe analytische Flexibilität zu replizieren.

Verweise

Dienes, Z. (2008). Psychologie als Wissenschaft verstehen: Eine Einführung in die wissenschaftliche und statistische Inferenz . Palgrave Macmillan.

John, LK, Loewenstein, G. & amp; Prelec, D. (2012). Messung der Prävalenz fragwürdiger Forschungspraktiken mit Anreizen zur Wahrheitsfindung. Psychological Science , 23 (5), 524-532.

Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin , 86 (3), 638.

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science , 22 (11), 1359 & ndash; 1366.

— jsakaluk
quelle

Sehr nette Antwort. Hat mir geholfen, einige Bedenken zusammenzuführen, die ich bei meinem letzten Studium von Forschungsarbeiten (als Laie) hatte, und hat anscheinend die Idee bestätigt, dass einseitige p-Werte nur dann "vertrauenswürdig" sind, wenn Sie Grund haben, dem "Negativen" zu vertrauen Korrelationsrichtung falsch.

— Venryx

10

Leider ist das motivierende Beispiel für die Entwicklung von Medikamenten nicht gut, da wir es nicht tun, um Medikamente zu entwickeln. Wir wenden andere, strengere Regeln an, um die Studie zu stoppen, wenn Trends schädlich sind. Dies dient der Sicherheit der Patienten und auch deshalb, weil es unwahrscheinlich ist, dass das Medikament auf magische Weise in Richtung eines bedeutenden Nutzens schwingt.

Also warum zwei tailed Tests ? (Wenn wir in den meisten Fällen eine A-priori- Vorstellung von der möglichen Wirkungsrichtung haben, die wir zu modellieren versuchen)

Die Nullhypothese sollte eine gewisse Ähnlichkeit mit dem Glauben haben, plausibel, informiert und gerechtfertigt zu sein. In den meisten Fällen ist man sich einig, dass ein "uninteressantes Ergebnis" vorliegt, wenn der Effekt 0 ist, während ein negativer oder positiver Effekt von gleichem Interesse ist. Es ist sehr schwierig, eine zusammengesetzte Nullhypothese zu formulieren, z. B. wenn wir wissen, dass die Statistik gleich oder istweniger als eine bestimmte Menge. Man muss eine Nullhypothese sehr deutlich ausdrücken, um ihre wissenschaftlichen Erkenntnisse zu verstehen. Es sei darauf hingewiesen, dass die Art und Weise, in der ein zusammengesetzter Hypothesentest durchgeführt wird, darin besteht, dass die Statistik unter der Nullhypothese den beständigsten Wert innerhalb des Bereichs der beobachteten Daten annimmt. Wenn der Effekt also wie erwartet in die positive Richtung geht, wird der Nullwert ohnehin als 0 angenommen, und wir haben unnötigerweise darüber nachgedacht.

Ein zweiseitiger Test bedeutet, zwei einseitige Tests mit Kontrolle für mehrere Vergleiche durchzuführen! Der zweiseitige Test wird teilweise bewertet, weil er auf lange Sicht konservativer ist. Wenn wir die Wirkungsrichtung gut einschätzen, werden die beiden Tests mit zwei Schwänzen halb so häufig zu falsch-positiven Ergebnissen führen und insgesamt nur sehr geringe Auswirkungen auf die Leistung haben.

Wenn Sie eine Behandlung in einer randomisierten, kontrollierten Studie bewerten und versuchen, mir einen einseitigen Test zu verkaufen, würde ich Sie davon abhalten, zu fragen: "Warten Sie, warum glauben wir, dass die Behandlung tatsächlich schädlich ist? Gibt es tatsächlich Beweise um dies zu unterstützen? Gibt es überhaupt Equipoise [die Fähigkeit, einen positiven Effekt zu demonstrieren]? " Die logische Inkonsistenz hinter dem einseitigen Test stellt die gesamte Forschung in Frage. Wenn wirklich nichts bekannt ist, wird jeder andere Wert als 0 als interessant angesehen und der zweiseitige Test ist nicht nur eine gute Idee, er ist notwendig.

— AdamO
quelle

8

Eine Möglichkeit, dies zu erreichen, besteht darin, das Testen von Hypothesen vorübergehend zu vergessen und stattdessen über Konfidenzintervalle nachzudenken. Einseitige Tests entsprechen einseitigen Konfidenzintervallen und zweiseitige Tests entsprechen zweiseitigen Konfidenzintervallen.

Angenommen, Sie möchten den Mittelwert einer Population schätzen. Natürlich nehmen Sie eine Stichprobe und berechnen einen Stichprobenmittelwert. Es gibt keinen Grund, eine Punktschätzung zum Nennwert vorzunehmen. Aus diesem Grund drücken Sie Ihre Antwort in einem Intervall aus, bei dem Sie sich sicher sind, dass es den wahren Mittelwert enthält. Welche Art von Intervall wählen Sie? Ein zweiseitiges Intervall ist bei weitem die natürlichere Wahl. Ein einseitiges Intervall ist nur dann sinnvoll, wenn es Ihnen einfach egal ist, ob Sie eine Obergrenze oder eine Untergrenze Ihrer Schätzung finden (weil Sie glauben, dass Sie bereits eine nützliche Grenze in eine Richtung kennen). Wie oft bist du dir da wirklich so sicher?

Die Frage auf Konfidenzintervalle zu verlagern, ist vielleicht nicht so einfach, aber es ist methodisch inkonsistent, einseitige Tests, aber zweiseitige Konfidenzintervalle zu bevorzugen.

— John Coleman
quelle

4

Nachdem ich die absoluten Grundlagen des Hypothesentests erlernt und mich mit einem Test gegen zwei Tests befasst habe, verstehe ich die grundlegende Mathematik und die verbesserte Erkennungsfähigkeit von Tests mit einem Schwanz usw. Aber ich kann mich einfach nicht um meinen Kopf wickeln um eine Sache ... Was ist der Sinn? Ich verstehe wirklich nicht, warum Sie Ihr Alpha zwischen den beiden Extremen aufteilen sollten, wenn Ihr Sample-Ergebnis nur in der einen oder der anderen oder in keiner sein kann.

Das Problem ist, dass Sie nicht wissen, was die Bevölkerung bedeutet. Ich habe noch nie ein reales Szenario erlebt, in dem ich die wahre Bevölkerungszahl kenne.

Nehmen Sie das Beispielszenario aus dem oben zitierten Text. Wie könnten Sie möglicherweise "nicht testen", um ein Ergebnis in die entgegengesetzte Richtung zu erhalten? Sie haben Ihren Stichprobenmittelwert. Sie haben Ihre Bevölkerung bedeuten. Einfache Arithmetik sagt Ihnen, was höher ist. Was gibt es in die entgegengesetzte Richtung zu testen oder nicht zu testen? Was hält Sie davon ab, mit der entgegengesetzten Hypothese von vorne anzufangen, wenn Sie deutlich sehen, dass der Stichprobenmittelwert in die andere Richtung abweicht?

Ich habe Ihren Absatz mehrmals gelesen, bin mir aber bei Ihren Argumenten immer noch nicht sicher. Möchten Sie es umformulieren? Sie können nicht "testen", ob Ihre Daten Sie nicht in die von Ihnen ausgewählten kritischen Regionen bringen.

Ich gehe davon aus, dass dies auch für das Umschalten der Polarität Ihres einseitigen Tests gilt. Aber wie ist dieses "behandelte" Ergebnis weniger gültig, als wenn Sie einfach den richtigen einseitigen Test gewählt hätten?

Das Zitat ist korrekt, weil das Hacken eines p-Werts nicht angebracht ist. Wie viel wissen wir über P-Hacking "in the wild"? hat mehr Details.

Klar, ich vermisse hier einen großen Teil des Bildes. Alles scheint einfach zu willkürlich. Was es ist, denke ich, in dem Sinne, dass das, was "statistisch signifikant" bedeutet - 95%, 99%, 99,9% ..., zunächst willkürlich ist. Hilfe?

Es ist beliebig. Aus diesem Grund geben Datenwissenschaftler im Allgemeinen die Größe des p-Werts selbst (nicht nur signifikant oder unbedeutend) sowie die Größe der Effekte an.

— Kleinschach
quelle

Um es klar auszudrücken, ich versuche nicht, die Grundlagen der statistischen Inferenz in Frage zu stellen. Wie ich bereits sagte, habe ich gerade erst die Grundlagen erlernt und habe Probleme zu verstehen, wie potenzielle Ergebnisse übersehen werden können, wenn der richtige Test nicht verwendet wird.

— FromTheAshes

Sagen Sie, Ihr Freund Joe erfindet ein neues Produkt, von dem er behauptet, dass es das Pflanzenwachstum erheblich fördert. Interessiert entwickeln Sie eine aussagekräftige Studie mit einer Kontrollgruppe und einer Behandlungsgruppe. Ihre Nullhyp. ist, dass es keine Veränderung im Wachstum geben wird, deine alternative Hyp. ist, dass Joes Zauberspray das Wachstum deutlich steigert - so ein einseitiger Test. 2 Wochen später machen Sie Ihre letzten Beobachtungen und analysieren die Ergebnisse. Das mittlere Wachstum der Behandlungsgruppe beträgt mehr als 5 Standardfehler unter den Kontrollen. Wie ist diese sehr wichtige Feststellung aufgrund Ihrer Testwahl weniger offensichtlich oder weniger gültig?

— FromTheAshes

2

Wenn ich Sie auffordere, Kopf oder Zahl für einen Münzwurf anzurufen, ist die Wahrscheinlichkeit, dass Sie das Ergebnis vorhersagen, 50/50 (unter der Annahme einer ausgeglichenen Münze und eines ehrlichen Flippers). Wenn ich jedoch zuerst die Münze umwerfe und Sie sie anschauen und dann Ihre Vorhersage treffen lasse, ist sie nicht mehr 50/50. Wenn Sie einen einseitigen Test mit einem Alpha-Level von 0,01 durchführen, dann aber die Richtung des Tests umkehren, nachdem Sie die Ergebnisse gesehen haben, da p <0,01 in die andere Richtung, ist das Risiko eines Fehlers vom Typ I nicht lang 0,01 aber viel höher. Beachten Sie, dass der beobachtete p-Wert und die Typ-I-Fehlerrate nicht dasselbe sind.

— Dbwilson

@FromTheAshes Es ist nichts Falsches daran, die Grundlagen herauszufordern. Das Testen statistischer Hypothesen ist nicht nutzlos, aber es enthält massive logische Fehler, und es ist absolut vernünftig, sie in Frage zu stellen!

— Flunder

3

Nun, jeder Unterschied hängt von der Frage ab, die Sie beantworten möchten. Wenn die Frage lautet: "Ist eine Wertegruppe größer als die andere?" Sie können einen One-Tailed-Test verwenden. Um die Frage zu beantworten: "Unterscheiden sich diese Wertegruppen?" Sie verwenden den zweiseitigen Test. Bedenken Sie, dass ein Datensatz statistisch höher sein kann als ein anderer, aber statistisch nicht anders ... und das sind Statistiken.

— Ramon L. Zegpi
quelle

1

'Wenn die Frage lautet: "Ist eine Wertegruppe größer als die andere?" Sie können einen One-Tailed-Test verwenden. ' Genauer gesagt, wenn die Frage lautet: "Ist * diese bestimmte Gruppe größer als die anderen?", Sollten Sie einen zweiseitigen Test durchführen.

— Kumulierung

Es sollte beachtet werden, dass es irgendwie impliziert ist, dass es mich nicht interessiert , wenn Sie diese Frage stellen: "Und wenn es übrigens so aussieht, als ob die andere Gruppe tatsächlich größer ist, dann ist es mir egal." Wenn Sie das Gegenteil von dem sehen würden, was Sie erwarten würden, und dann die Richtung des Hypothesentests umkehren würden, dann hätten Sie sich die ganze Zeit nur selbst belügen und zunächst einen zweiseitigen Test durchführen sollen.

— Dason

2

Aber wie ist dieses "behandelte" Ergebnis weniger gültig, als wenn Sie einfach den richtigen einseitigen Test gewählt hätten?

Der Alpha-Wert ist die Wahrscheinlichkeit, dass Sie die Null ablehnen, vorausgesetzt, die Null ist wahr. Angenommen, Ihre Null ist, dass der Stichprobenmittelwert normal mit dem Mittelwert Null verteilt ist. Wenn P (Stichprobenmittelwert> 1 | H0) = 0,05 ist, hat die Regel "Sammle eine Stichprobe und lehne die Null ab, wenn der Stichprobenmittelwert größer als 1 ist" eine Wahrscheinlichkeit von 5% von die Null ablehnen. Die Regel "Sammle eine Stichprobe und wenn der Stichprobenmittelwert positiv ist, lehne die Null ab, wenn der Stichprobenmittelwert größer als 1 ist, und wenn der Stichprobenmittelwert negativ ist, lehne die Null ab, wenn der Stichprobenmittelwert kleiner als 1 ist" hat a Wahrscheinlichkeit von 10% der Zurückweisung der Null, vorausgesetzt, dass die Null wahr ist. Die erste Regel hat also ein Alpha von 5% und die zweite Regel ein Alpha von 10%. Wenn Sie mit einem zweiseitigen Test beginnen, und ändern Sie es dann in einen einseitigen Test basierend auf den Daten, dann folgen Sie der zweiten Regel, so dass es ungenau wäre, Ihr Alpha als 5% zu melden. Der Alpha-Wert hängt nicht nur von den Daten ab, sondern auch von den Regeln, nach denen Sie sie analysieren. Wenn Sie sich fragen, warum Sie eine Metrik mit dieser Eigenschaft verwenden, und nicht etwas, das nur von den Daten abhängt, ist dies eine kompliziertere Frage.

— Akkumulation
quelle

2

Zum 2. Punkt

Die Auswahl eines einseitigen Tests nach dem Ausführen eines zweiseitigen Tests, bei dem die Nullhypothese nicht verworfen wurde, ist nicht angemessen, auch wenn der zweiseitige Test nahezu signifikant war.

Wenn die Null wahr ist, wird der erste zweiseitige Test fälschlicherweise mit der Wahrscheinlichkeit , aber der einseitige Test wird möglicherweise auch in der zweiten Stufe zurückgewiesen. $\alpha$

Die allgemeine Ablehnungswahrscheinlichkeit übersteigt daher , und Sie testen nicht mehr auf dem Niveau, von dem Sie glauben, dass es sich um einen Test handelt. Sie erhalten häufiger falsche Ablehnungen als in der Fälle, auf die die Strategie angewendet wird wahre Nullhypothesen. $\alpha$ $\alpha\cdot 100\%$

Insgesamt suchen wir das wir als ausdrücken können. Die beiden Ereignisse in der Vereinigung sind unzusammenhängend, so dass wir nach Für den zweiten Term gibt es eine Wahrscheinlichkeitsmasse zwischen den oberen und Quantilen (dh den Abstoßungspunkten der einseitige und zweiseitige Tests), wobei es sich um die gemeinsame Wahrscheinlichkeit handelt, dass der zweiseitige Test nicht ablehnt, sondern nur einseitig. Daher,

P (two-sided rejects or one-sided does, but two sided doesn't)

$P(\text{two-sided rejects or one-sided does, but two sided doesn't})$

P (two-sided rejects \cup (one-sided does \cap two sided doesn't))

$P(\text{two-sided rejects} \cup \text{(one-sided does} \cap \text{two sided doesn't)})$

P (two-sided rejects) + P (one-sided does \cap two sided doesn't)

$P(\text{two-sided rejects}) +P(\text{one-sided does} \cap \text{two sided doesn't})$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

P (one-sided does \cap two sided doesn't) = α / 2

$P(\text{one-sided does} \cap \text{two sided doesn't})=\alpha/2$ sodass die allgemeine Ablehnungswahrscheinlichkeit dieser Strategie effektiv, wir fügen Sie einfach die Wahrscheinlichkeiten auf , die die Teststatistik links von der landet -Quantil, zwischen dem oberen und Quantile oder rechts von den -Quantil.

α + \frac{α}{2} > α

$\alpha+\frac{\alpha}{2}>\alpha$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

1 - α / 2

$1-\alpha/2$

Hier ist eine kleine numerische Illustration:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

— Christoph Hanck
quelle

1

Dies ist nur eine willkürliche Sichtweise: Wofür wird ein statistischer Test verwendet? Wahrscheinlich ist der häufigste Grund für die Durchführung eines Tests der, dass Sie Personen (Redakteure, Rezensenten, Leser, Publikum) davon überzeugen möchten, dass Ihre Ergebnisse "nicht zufällig genug" sind, um bemerkenswert zu sein. Und irgendwie sind wir zu dem Schluss gekommen, dass die willkürliche, aber universelle Wahrheit ist. $p < \alpha = 0.05$

Aus irgendeinem anderen vernünftigen Grund, Tests durchzuführen, würden Sie sich niemals mit einem festen von , aber Sie würden Ihr von Fall zu Fall variieren , je nachdem, wie wichtig die Konsequenzen waren, die Sie aus dem Test ziehen. $\alpha$ $0.05$ $\alpha$

Zurück zur Überzeugung der Menschen, dass etwas "weit genug vom Zufall entfernt" ist, um ein universelles Kriterium der Bekanntheit zu erfüllen. Wir haben ein nicht nachvollziehbares, aber allgemein akzeptiertes Kriterium, das wir für zweiseitiges Testen für "nicht zufällig" bei $\alpha=0.05$ . Ein äquivalentes Kriterium wäre, sich die Daten anzusehen, zu entscheiden, wie sie getestet werden sollen, und die Linie bei zeichnen . Das zweite ist gleichbedeutend mit dem ersten, aber es ist nicht das, womit wir uns historisch abgefunden haben. $\alpha=0.025$

Sobald Sie mit einseitigen Tests mit , werden Sie misstrauisch gegenüber unangemessenem Verhalten und dem Fischen nach Bedeutung. Tun Sie das nicht, wenn Sie Menschen überzeugen wollen! $\alpha=0.05$

Dann gibt es natürlich das, was man als Freiheitsgrad der Forscher bezeichnet . Sie können Signifikanz in jeder Art von Daten finden, wenn Sie über ausreichende Daten verfügen und diese auf beliebig viele Arten testen können. Aus diesem Grund sollten Sie sich für den Test entscheiden, den Sie durchführen, bevor Sie sich die Daten ansehen. Alles andere führt zu nicht reproduzierbaren Testergebnissen. Ich rate dir, auf YouTube zu gehen und dir Andrew Gelmans Vortrag "Verbrechen an Daten" anzusehen, um mehr darüber zu erfahren.

— Bernhard
quelle

1

Hmm, die Nullhypothese besagt nicht, dass die Ergebnisse zufällig sind. Dies würde Kliniker und Wissenschaftler verwirren, die die Ergebnisse ihrer Arbeit als ein festes Ergebnis ansehen.

— AdamO

1

Ihr Punkt "Sobald Sie mit einseitigen Tests mit ... beginnen" ist wichtig. Der Grund für die dass so häufig ist, ist, dass die Praxiserfahrung von RA Fisher bei Rothamsted darin bestand, dass mehr als Standardabweichungen vom erwarteten Wert im Allgemeinen eine weitere Untersuchung wert waren. Aus diesem Grund wählte er einen zweiseitigen -Test als Faustregel , Nicht umgekehrt. Somit wäre das einseitige Äquivalent

α = 0.05

$α=0.05$

0.05

$0.05$

2

$2$

5 %

$5\%$

2.5 %

$2.5\%$

— Henry

1

Keine dieser Aussagen lässt auf den ersten Blick den Schluss zu, dass ein zweiseitiger Test einer einseitigen Studie „überlegen“ ist. Es muss lediglich eine logische Verbindung zwischen der zu testenden Forschungshypothese und der zu testenden statistischen Folgerung bestehen.

Zum Beispiel:

... überlegen Sie, welche Konsequenzen das Ausbleiben eines Effekts in die andere Richtung hat. Stellen Sie sich vor, Sie haben ein neues Medikament entwickelt, von dem Sie glauben, dass es eine Verbesserung gegenüber einem vorhandenen Medikament darstellt. Sie möchten die Fähigkeit maximieren, die Verbesserung zu erkennen, und entscheiden sich für einen einseitigen Test. Dabei wird nicht geprüft, ob das neue Medikament möglicherweise weniger wirksam ist als das vorhandene.

Zunächst ist dies eine Arzneimittelstudie. Falsch in die entgegengesetzte Richtung zu sein, hat also eine gesellschaftliche Bedeutung, die über den Rahmen der Statistik hinausgeht. Wie viele gesagt haben, ist Gesundheit nicht das Beste, um Verallgemeinerungen anzustellen.

Im obigen Zitat scheint es darum zu gehen, ein Medikament zu testen, wenn bereits ein anderes existiert. Für mich bedeutet dies, dass Ihr Medikament bereits wirksam ist. Die Aussage bezieht sich auf den Vergleich von zwei wirksamen Arzneimitteln danach. Wenn Sie diese Verteilungen vergleichen, wenn Sie eine Seite der Bevölkerung vernachlässigen, um die Vergleichsergebnisse zu verbessern? Es ist nicht nur eine voreingenommene Schlussfolgerung, sondern der Vergleich ist nicht mehr gültig, um dies zu rechtfertigen: Sie vergleichen Äpfel mit Orangen.

Ebenso kann es durchaus Punktschätzungen geben, die aus statistischen Gründen keinen Unterschied zur Schlussfolgerung machen, aber von großer sozialer Bedeutung sind. Das liegt daran, dass unsere Stichprobe das Leben der Menschen darstellt: etwas, das nicht "wiederkehren" kann und von unschätzbarem Wert ist.

Alternativ impliziert die Aussage, dass der Forscher einen Anreiz hat: "Sie möchten Ihre Fähigkeit maximieren, die Verbesserung zu erkennen ..." Dieser Begriff ist nicht trivial, wenn der Fall als schlechtes Protokoll isoliert wird.

Die Wahl eines einseitigen Tests nach dem Durchführen eines zweiseitigen Tests, bei dem die Nullhypothese nicht verworfen wurde, ist nicht angemessen, auch wenn der zweiseitige Test nahezu signifikant war.

Auch hier bedeutet dies, dass der Forscher seinen Test „umstellt“: von zweiseitig zu einseitig. Das ist niemals angebracht. Vor dem Testen muss unbedingt ein Forschungszweck festgelegt werden. Indem die Forscher stets auf die Bequemlichkeit eines zweiseitigen Ansatzes zurückgreifen, können sie das Phänomen bequemerweise nicht genauer verstehen.

Hier ist ein Artikel zu genau diesem Thema, in dem dargelegt wird, dass zweiseitige Tests zu häufig verwendet wurden.

Die Überbeanspruchung eines zweiseitigen Tests wird auf das Fehlen eines:

klare Unterscheidung und logische Verknüpfung zwischen der Forschungshypothese und ihrer statistischen Hypothese

Es ist die Position und Haltung der Forscher:

ist sich möglicherweise des Unterschieds zwischen den beiden Ausdrucksarten oder des logischen Flusses, in dem die Forschungshypothese in die statistische Hypothese übersetzt werden sollte, nicht bewusst. Eine zweckmäßige Vermischung der Forschungshypothesen und der statistischen Hypothesen kann selbst in Situationen, in denen die Verwendung von Zweischwanztests ungeeignet ist, zu einem übermäßigen Einsatz von Zweischwanztests führen.

Bei der Interpretation der statistischen Testergebnisse müssen die genauen Statistiken erfasst werden. Unter dem Namen konservativ ungenau zu sein, ist nicht empfehlenswert. In diesem Sinne sind die Autoren der Ansicht, dass die bloße Angabe von Testergebnissen wie „Es wurde festgestellt, dass es bei einem Signifikanzniveau von 0,05 (dh p <0,05) statistisch signifikant ist“ nicht gut genug ist.

Obwohl zweiseitiges Testen in der Theorie konservativer ist, entkoppelt es die Verbindung zwischen der gerichteten Forschungshypothese und ihrer statistischen Hypothese, was möglicherweise zu doppelt aufgeblasenen p-Werten führt.

Die Autoren haben auch gezeigt, dass das Argument für das Finden des signifikanten Ergebnisses in die entgegengesetzte Richtung nur im Kontext der Entdeckung und nicht im Kontext der
Rechtfertigung von Bedeutung ist . Bei der Prüfung der Forschungshypothese und ihrer zugrunde liegenden Theorie sollten sich die Forscher nicht gleichzeitig mit dem Kontext der Entdeckung und dem der Rechtfertigung befassen.

https://www.sciencedirect.com/science/article/pii/S0148296312000550

— Aisync
quelle

1

Oft wird ein Signifikanztest für die Nullhypothese gegen eine alternative Hypothese durchgeführt . Dies ist der Fall, wenn einseitige oder zweiseitige Verbindungen einen Unterschied machen.

Bei p-Werten spielt dies (zweiseitig oder einseitig) keine Rolle! Der Punkt ist , dass Sie ein Kriterium auswählen , die nur einen Bruchteil auftritt der Zeit , wenn die Nullhypothese wahr ist. Dies sind entweder zwei kleine Stücke beider Schwänze oder ein großes Stück eines Schwanzes oder etwas anderes. $\alpha$

Die Fehlerrate von Typ I ist bei ein- oder zweiseitigen Tests nicht unterschiedlich.
Auf der anderen Seite, für die Macht ist es wichtig .

Wenn Ihre alternative Hypothese asymmetrisch ist, möchten Sie das Kriterium so fokussieren, dass die Nullhypothese nur an diesem Ende abgelehnt wird. Wenn die alternative Hypothese wahr ist, ist es weniger wahrscheinlich, dass Sie die Nullhypothese nicht ablehnen ("akzeptieren").

Wenn Ihre alternative Hypothese symmetrisch ist (Sie möchten nicht mehr oder weniger Leistung auf eine bestimmte Seite legen) und Ablenkung / Wirkung auf beiden Seiten gleichermaßen erwartet wird (oder nur unbekannt / nicht informiert ist), ist es leistungsfähiger, a zu verwenden zweiseitiger Test (Sie verlieren nicht 50% der Leistung für den Schwanz, den Sie nicht testen, und wo Sie viele Typ-II-Fehler machen werden).

Die Typ-II-Fehlerrate ist bei ein- und zweiseitigen Tests unterschiedlich und hängt auch von der alternativen Hypothese ab.

Es wird mehr und mehr zu einem Bayes'schen Konzept, wenn wir anfangen, Vorurteile darüber zu entwickeln, ob ein Effekt einseitig oder beidseitig zu erwarten ist oder nicht, und wenn wir einen Test verwenden möchten (um zu sehen, ob wir a verfälschen können) Null-Hypothese), um so etwas wie einen Effekt zu 'bestätigen' oder wahrscheinlicher zu machen.

— Sextus Empiricus
quelle

0

Also noch ein Antwortversuch:

Ich denke, ob Sie einseitig oder zweiseitig schwanzig sind, hängt vollständig von der Alternativhypothese ab .

Betrachten Sie das folgende Beispiel eines Testmittels in einem t-Test:

$H_0: \mu=0$

$H_a: \mu \neq 0$

Wenn Sie nun einen sehr negativen oder einen sehr positiven Stichprobenmittelwert beobachten, ist es unwahrscheinlich, dass Ihre Hypothese zutrifft.

Auf der anderen Seite sind Sie bereit, Ihre Hypothese zu akzeptieren, wenn Ihr Stichprobenmittelwert in der Nähe von egal ob negativ oder positiv . Nun müssen Sie das Intervall auswählen, in dem Sie Ihre Nullhypothese nicht ablehnen würden, wenn Ihr Stichprobenmittelwert fallen würde. Offensichtlich würden Sie ein Intervall wählen, das sowohl negative als auch positive Seiten um . Sie wählen also den Doppelseitentest. $0$ $0$

Aber was , wenn Sie nicht wollen , testen , sondern . Was wir hier intuitiv tun möchten, ist, dass wir, wenn der Wert des Stichprobenmittelwerts sehr negativ ist, unsere Null definitiv ablehnen können. Wir möchten daher Null nur für weitaus negative Werte des Stichprobenmittelwerts ablehnen. $\mu=0$ $\mu\geq 0$

Aber warte! Wenn das meine Nullhypothese ist, wie würde ich meine Nullverteilung einstellen? Die Nullverteilung des Stichprobenmittelwerts ist für einen angenommenen Wert des Populationsparameters (hier ) bekannt. Unter dem aktuellen Wert null können jedoch viele Werte verwendet werden. $0$

Nehmen wir an, wir können unendlich viele Nullhypothesen aufstellen. Jeweils für die Annahme eines positiven Wertes von . Aber denken Sie daran: Wenn wir in unserer ersten Hypothese von nur null ablehnen, wenn wir einen sehr weit negativen Stichprobenmittelwert einhalten, würde jede nächste Hypothese mit dies ebenfalls ablehnen. Denn für sie ist der Stichprobenmittelwert noch weiter vom Populationsparameter entfernt. Im Grunde genommen müssen wir also nur eine einzige Hypothese aufstellen, die jedoch einseitig ist . $\mu$ $H_0: \mu=0$ $H_0: \mu>0$

So wird Ihre Lösung:

$H_0: \mu=0$

$H_a: \mu <0$

Bestes Beispiel ist der Dickey-Fuller-Test auf Stationarität.

Hoffe das hilft. (Wollte Diagramme enthalten, aber vom Handy aus antworten).

— Dayne
quelle