Auswirkungen der aktuellen Debatte auf die statistische Signifikanz

10

In den letzten Jahren haben verschiedene Wissenschaftler ein nachteiliges Problem beim Testen wissenschaftlicher Hypothesen angesprochen, das als "Freiheitsgrad der Forscher" bezeichnet wird. Dies bedeutet, dass Wissenschaftler während ihrer Analyse zahlreiche Entscheidungen treffen müssen, die darauf abzielen, mit einem p-Wert <5% zu finden. Diese zweideutigen Entscheidungen sind zum Beispiel, welcher Fall aufgenommen werden soll, welcher Fall als Ausreißer eingestuft wird, zahlreiche Modellspezifikationen ausführen, bis etwas auftaucht, keine Nullergebnisse veröffentlichen usw. (Das Papier, das diese Debatte in der Psychologie ausgelöst hat , ist hier , sieht einen beliebten Slate Artikel und Follow-up - Debatte von Andrew Gelman hier , und das Time - Magazin berührt auch zu diesem Thema hier .)

Zunächst eine Klärungsfrage:

Das Time Magazine schrieb:

"Eine Potenz von 0,8 bedeutet, dass von zehn getesteten echten Hypothesen nur zwei ausgeschlossen werden, da ihre Auswirkungen nicht in den Daten erfasst werden."

Ich bin nicht sicher, wie dies in die Definition der Potenzfunktion passt, die ich im Lehrbuch gefunden habe. Dies ist die Wahrscheinlichkeit, die Null als Funktion des Parameters abzulehnen . Mit unterschiedlichem wir unterschiedliche Potenzen, daher verstehe ich das obige Zitat nicht ganz. $\theta$ $\theta$

Zweitens einige Auswirkungen auf die Forschung:

In meinem Bereich Politikwissenschaft / Wirtschaft nutzen Wissenschaftler einfach alle verfügbaren Länderjahresdaten. Sollten wir uns hier also nicht mit Probenfummeln befassen?
Kann das Problem, mehrere Tests durchzuführen, aber nur ein Modell zu melden, einfach dadurch behoben werden, dass jemand anderes in der Disziplin Ihr Papier erneut testet und Sie sofort niederschlägt, weil Sie keine soliden Ergebnisse erzielen? In Erwartung dessen schließen Wissenschaftler in meinem Bereich eher einen robustness checkAbschnitt ein, in dem sie zeigen, dass mehrere Modellspezifikationen das Ergebnis nicht ändern. Ist das ausreichend
Andrew Gelman und andere weisen darauf hin, dass es unabhängig von den Daten immer möglich wäre, ein "Muster" zu finden und zu veröffentlichen, das nicht wirklich vorhanden ist. Dies sollte jedoch kein Problem sein, da jedes empirische "Muster" durch eine Theorie gestützt werden muss und rivalisierende Theorien innerhalb einer Disziplin nur eine Debatte / ein Rennen führen, um herauszufinden, welches Lager mehr "Muster" finden kann. an verschiedenen Orten. Wenn ein Muster wirklich falsch ist, wird die dahinter stehende Theorie schnell niedergeschlagen, wenn es in anderen Samples / Einstellungen kein ähnliches Muster gibt. Geht die Wissenschaft nicht so voran?
Unter der Annahme, dass der aktuelle Trend der Zeitschriften für Nullergebnisse tatsächlich florieren wird, gibt es eine Möglichkeit für uns, alle Nullergebnisse und positiven Ergebnisse zusammenzufassen und auf die Theorie zu schließen, die alle zu testen versuchen?

— Heisenberg
quelle

Siehe auch "Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon" . Die "Nullhypothese" ist für Ihr Fachgebiet immer falsch. Selbst bei angemessener Forschungspraxis sind Signifikanztests und Hypothesentests wahrscheinlich unangemessen.

— Flasche

Ihre Frage 1 steht im Widerspruch zu Frage 3. Gibt es in polsci / Economics andere Beispiele / Einstellungen, die verfügbar sind oder nicht?

— Flasche

11

Anstatt p-Werte zur Bewertung von Behauptungen zu verwenden, sollten wir den Ratschlägen von Robert Abelson folgen und die MAGIC-Kriterien verwenden:

Magnitude
Articulation
Generality
Interestingness
Credibility

Weitere Informationen zu Abelson finden Sie in meiner Rezension seines Buches

Und wir sollten uns auf Effektgrößen konzentrieren, nicht auf p-Werte in der statistischen Ausgabe (mit der möglichen Ausnahme einiger Arten von Data Mining, für die ich überhaupt kein Experte bin). Und Effektgrößen sind im Kontext zu beurteilen:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Ein Statistiker / Datenanalyst sollte keine seltsame Person sein, die wie eine Black Box verwendet wird, in die Daten eingegeben und aus der p-Werte abgerufen werden. er / sie sollte ein Mitarbeiter in der Forschung sein, der angesichts der aktuellen Theorien (oder ihres Mangels) und der aktuellen Beweise (oder des Fehlens derselben) ein vernünftiges Argument für die Bedeutung eines Datensatzes im Kontext eines bestimmten Bereichs liefern soll.

Leider erfordert dieser Ansatz Überlegungen seitens der inhaltlichen Forscher, des Datenanalysten und derjenigen, die die Ergebnisse überprüfen (sei es ein spitzer Chef, ein Dissertationskomitee, ein Journaleditor oder wer auch immer). Seltsamerweise scheinen sogar Akademiker dieser Art von Gedanken abgeneigt zu sein.

Um mehr über meine Ansichten zu erfahren, hier ein Artikel, den ich geschrieben habe und der in Sciences360 veröffentlicht wurde.

— Peter Flom - Monica wieder einsetzen
quelle

4

+1 Obwohl ich Ihnen mit Sicherheit zustimme, kann ich mir vorstellen, dass es nicht immer hilfreich sein kann, zu sagen, dass meine Behauptung von MAGIC unterstützt wird :-)

— Marc Claesen

1

Ja, Sie müssten es formulieren, aber wenn Sie es tun würden, könnte es funktionieren: "Dies sind große Effekte, die nur wenige Ausnahmen haben, eine große Anzahl von Menschen betreffen, interessant sind, weil XXXX und glaubwürdig, weil sie XXXX sind." könnte funktionieren. Ich habe es nicht versucht gesehen. :-)

— Peter Flom - Reinstate Monica

1

Ja; Eine Behauptung ist "glaubwürdig", wenn es eine Theorie gibt, die besagt, wie es passieren könnte. wenn es repliziert wird und so weiter. Es ist weniger glaubwürdig, wenn es keine physikalische oder andere theoretische Erklärung gibt. Je weniger glaubwürdig eine Behauptung ist, desto mehr Beweise werden dafür benötigt.

— Peter Flom - Monica wieder einsetzen

2

@Anh Die Glaubwürdigkeit in der Wissenschaft sollte daran gemessen werden, wie gut die Theorien Phänomene vorhersagen, die bei der Entwicklung der Theorie nicht verwendet wurden. Bei der Beurteilung, ob die Vorhersagen gut waren, erfordert die Glaubwürdigkeit die Replikation durch unabhängige Forscher. Es gibt unzählige empirische Beweise dafür, dass sowohl Signifikanztests als auch Hypothesentests tatsächlich beide Verhaltensweisen entmutigen und stattdessen die kontraproduktiven Aktivitäten der Publikationsverzerrung und des "p-Hacking" einer willkürlichen "Signifikanz" abschneiden.

— Flasche

1

@Flask - Ich würde sagen, dass die p-Werte nicht unbedingt das Problem sind, sondern dass die Verwendung schwacher Hypothesentests das Problem ist. Die Physik verwendet ebenfalls p-Werte, jedoch mit Hypothesen, die zu Punktvorhersagen führen (dh einer tatsächlichen Nullhypothese). Das Finden eines "positiven Effekts" ist für die Theoriebildung grundsätzlich nutzlos - Sie müssen eine Punktschätzung vornehmen, um die Theorie richtig zu bestätigen.

— Wahrscheinlichkeitslogik

3

Das Gebiet der statistischen Wissenschaft hat sich von Anfang an mit diesen Fragen befasst. Ich sage immer wieder, die Rolle des Statistikers besteht darin, sicherzustellen, dass die Fehlerrate vom Typ 1 fest bleibt. Dies impliziert, dass das Risiko falsch positiver Schlussfolgerungen nicht beseitigt, sondern kontrolliert werden kann. Dies sollte unsere Aufmerksamkeit auf das extrem große Volumen wissenschaftlicher Forschung lenken, das durchgeführt wird, und nicht auf die Philosophie und Ethik der allgemeinen statistischen Praxis. Für jedes unglaubliche (unglaubliche) Ergebnis, das in den Medien (oder in der Regierungspolitik) auftaucht, wurden mindestens 19 andere unglaubliche Ergebnisse wegen ihrer Nullbefunde abgeschossen.

Wenn Sie beispielsweise zu clinicaltrials.gov gehen, werden Sie feststellen, dass in den USA derzeit (für fast jede Krankheitsindikation) weit über 1.000 klinische Studien für Arzneimittel durchgeführt werden. Das bedeutet, dass bei einer falsch positiven Fehlerrate von 0,001 durchschnittlich mindestens 1 Medikament in die Regale gestellt wird, das keine Wirkung hat. Die Gültigkeit von 0,05 als validierter Schwellenwert für die statistische Signifikanz wurde immer wieder in Frage gestellt. Ironischerweise fühlen sich nur die Statistiker mit der Verwendung einer falsch-positiven Fehlerrate von 1/20 unwohl, während Finanzakteure (seien es PIs oder Merck) hartnäckig Überzeugungen verfolgen, unabhängig von In-vitro-Ergebnissen, theoretischen Beweisen oder der Stärke früherer Beweise. Ehrlich, Diese Hartnäckigkeit ist eine erfolgreiche und lobenswerte persönliche Eigenschaft vieler Personen, die in nicht statistischen Rollen erfolgreich sind. Sie sitzen in der Regel über Statistikern in ihren jeweiligen Totems, die dazu neigen, diese Hartnäckigkeit zu nutzen.

Ich denke, das von Ihnen vorgebrachte Zeitzitat ist völlig falsch. Macht ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie falsch ist. Dies hängt vor allem davon ab, wie "falsch" die Nullhypothese ist (was wiederum von einer messbaren Effektgröße abhängt). Ich spreche selten von Macht aus dem Kontext des Effekts, den wir als "interessant" erachten würden. (Zum Beispiel ist ein 4-monatiges Überleben nach einer chemotherapeutischen Behandlung von Bauchspeicheldrüsenkrebs im Stadium 4 nicht interessant, daher gibt es keinen Grund, 5.000 Personen für eine Phase-3-Studie zu rekrutieren.)

Um die Fragen zu beantworten, die Sie gestellt haben

???
Die Multiplizität ist schwierig, da sie nicht zu einer offensichtlichen Entscheidungsregel für den Umgang mit den Daten führt. Nehmen wir zum Beispiel an, wir interessieren uns für einen einfachen Test der mittleren Differenz. Trotz der unendlichen Proteste meiner Kollegen ist es leicht zu zeigen, dass ein T-Test gut kalibriert ist, um Unterschiede im Mittelwert unabhängig von der Stichprobenverteilung der Daten festzustellen. Nehmen wir an, wir verfolgen abwechselnd ihren Weg. Sie würden mit dem Testen der Normalität unter Verwendung einer Variante eines bekannten Verteilungstests beginnen (z. B. Kalibrierung des qqplot). Wenn die Daten ausreichend nicht normal erschienen, würden sie fragen, ob die Daten einer bekannten Transformation folgen, und dann eine Box Cox-Transformation anwenden, um eine Leistungstransformation (möglicherweise logarithmisch) zu bestimmen, die die Entropie maximiert. Wenn ein offensichtlicher numerischer Wert herausspringt, Sie werden diese Transformation nutzen. Wenn nicht, verwenden sie den "verteilungsfreien" Wilcoxon-Test. Für diese Ad-hoc-Abfolge von Ereignissen kann ich nicht hoffen, wie man die Kalibrierung und Leistung für einen einfachen Test der mittleren Unterschiede berechnet, wenn der einfache, dumme T-Test ausgereicht hätte. Ich vermute, dass solche dummen Handlungen mathematisch mit Hodges übereffizienter Schätzung verknüpft werden können: Schätzer, die unter einer bestimmten Hypothese, die wir wahr sein wollen, eine hohe Leistung haben. Trotzdem ist dieser Prozess s supereffiziente Schätzung: Schätzer, die unter einer bestimmten Hypothese eine hohe Leistung haben, wollen wahr sein. Trotzdem ist dieser Prozess s supereffiziente Schätzung: Schätzer, die unter einer bestimmten Hypothese eine hohe Leistung haben, wollen wahr sein. Trotzdem ist dieser Prozessnicht statistisch, da die falsch positive Fehlerrate nicht kontrolliert wurde.
Das Konzept, dass Trends in zufälligen Daten fälschlicherweise "entdeckt" werden können, geht wahrscheinlich auf den gut geschriebenen Artikel von Martin mit dem Titel "Munchaesen's Statistical Grid" zurück . Dies ist eine sehr aufschlussreiche Lektüre und stammt aus dem Jahr 1984, bevor uns das goldene Kalb des maschinellen Lernens geboren wurde, wie wir es derzeit kennen. In der Tat ist eine korrekt formulierte Hypothese fälschbar, aber Typ-1-Fehler sind in unserer datengetriebenen Gesellschaft viel teurer geworden als je zuvor. Betrachten Sie zum Beispiel die gefälschten Beweise der Anti-Impfstoff-Forschung, die zu einer massiven Folge von Pertussis-Todesfällen geführt haben. Die Ergebnisse, die die öffentliche Defenestrierung von Impfstoffen verschmähten, wurden in einer einzigen Studie verknüpft(was, obwohl falsch, weder durch externe Forschung bestätigt wurde). Es gibt einen ethischen Anstoß, Ergebnisse zu erzielen und die Beweiskraft der Ehrlichkeit zu melden. Wie stark sind die Beweise? Es hat wenig mit dem p-Wert zu tun, den Sie erhalten, aber mit dem p-Wert, den Sie als signifikant bezeichnen würden. Und denken Sie daran, dass das Fudgen Ihrer Daten den Wert von p ändert, selbst wenn der letzte Bestätigungstest etwas anderes meldet (oft viel kleiner).
JA! In Metaanalysen, die von Zeitschriften wie dem Cochrane-Bericht veröffentlicht wurden, können Sie deutlich sehen, dass die Verteilung der Testergebnisse bimodaler als die von Noraml aussieht, wobei nur positive und negative Ergebnisse in Zeitschriften gelangen. Diese Beweise sind absolut verrückt und verwirrend für jeden in der klinischen Praxis. Wenn wir stattdessen Nullergebnisse veröffentlichen (die aus Studien stammen, an deren Ergebnissen wir interessiert gewesen wären, unabhängig davon, um welche es sich handelt ), können wir erwarten, dass Metaanalysen tatsächlich aussagekräftige und repräsentative Beweise darstellen.

— AdamO
quelle

1

In " Über Wahrscheinlichkeit als Handlungsgrundlage" unterscheidet William Deming zwischen "enumerativen" und "analytischen" Studien. Er weist darauf hin, dass die Ergebnisse jedes Experiments von der genauen Umgebung des Experiments abhängig sind, weshalb die Versuche der Statistiker, die "Typ I-Fehlerrate" zu kontrollieren, immer um einen unbekannten Betrag abweichen, wenn eine Behandlung unter verschiedenen Bedingungen angewendet wird .

— Flasche

@Flask Ebenso ist kein mechanischer Vorgang auf der internationalen Raumstation perfekt kalibriert, aber die Liebe zum Detail und die Minimierung von Fehlern der Ingenieure stellten sicher, dass wir keine Weltraum-Seltsamkeit an unseren Händen fanden.

— AdamO

Die Ingenieure testen (hoffentlich) die Komponenten unter allen erwarteten Bedingungen und fügen dann eine zusätzliche Fehlerquote hinzu, die auf den von ihnen erzeugten Modellen basiert. Dies ist die Art von Verhalten, die von Deming befürwortet wird, und unterscheidet sich von dem Versuch, Schlussfolgerungen über die zukünftige Leistung einer Behandlung oder die Beziehung zwischen Faktoren aus der Bewertung des Stichprobenfehlers nur einer Studie zu ziehen. Es ist eine sehr interessante Unterscheidung, die ich an keiner anderen Stelle gesehen habe.

— Flasche

Ich denke nicht, dass es überhaupt vertretbar ist zu sagen, dass ein "Prozess nicht statistisch ist, weil die falsch positive Fehlerrate nicht kontrolliert wurde". Statistik ist weit mehr als nur Frequentismus mit seinen Fehlerratenkontrollen, und die nicht-frequentistischen Bits sind die nützlicheren Bits für die Wissenschaft. Vielleicht möchten Sie meinen kürzlich erschienenen Artikel über arXived zum Thema lesen: arxiv.org/abs/1311.0081

— Michael Lew

1

@Adamo Das Fehlen jeglicher Quantifizierung von Beweisen in der frequentistischen Folgerung ist zwar eine populäre Meinung unter Bayesianern (und Likelihoodianern), aber sie ist gut validiert und war die explizit geäußerte Meinung von Neyman und Pearson in der ersten Veröffentlichung, in der sie die frequentistischen Methoden entwickelten! Vielleicht solltest du meine Zeitung offen lesen. Die Informationen sind alle da.

— Michael Lew

3

Erstens bin ich kein Statistiker, sondern nur ein Forscher, der sich in den letzten Jahren intensiv damit befasst hat, um herauszufinden, warum die Methoden, die ich um mich herum beobachte, so mangelhaft sind und warum es so viel Verwirrung über grundlegende Konzepte wie das "Was" gibt ist ein p-Wert? " Ich werde meine Perspektive geben.

Zunächst eine Klärungsfrage:

Das Time Magazine schrieb:
"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the
Daten;"

Ich bin nicht sicher, wie dies in die Definition der Potenzfunktion passt, die ich im Lehrbuch gefunden habe. Dies ist die Wahrscheinlichkeit, die Null als Funktion des Parameters θ abzulehnen. Mit unterschiedlichem θ haben wir unterschiedliche Potenzen, daher verstehe ich das obige Zitat nicht ganz.

Die Leistung ist eine Funktion von θ, Varianz und Stichprobengröße. Ich bin mir nicht sicher, was die Verwirrung ist. Auch für viele Fälle, in denen Signifikanztests verwendet werden, ist die Nullhypothese von Mittelwert1 = Mittelwert2 immer falsch. In diesen Fällen ist die Signifikanz nur eine Funktion der Stichprobengröße. Bitte lesen Sie Paul Meehls "Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon". Es hat viele Dinge für mich geklärt und ich habe nie eine angemessene Antwort gesehen. Paul Meehl hat einige andere Artikel dazu, die Sie finden können, indem Sie nach seinem Namen suchen.

In meinem Bereich Politikwissenschaft / Wirtschaft nutzen Wissenschaftler einfach alle verfügbaren Länderjahresdaten. Sollten wir uns hier also nicht mit Probenfummeln befassen?

Wenn Sie das Simmons 2011-Papier lesen, ist dies nur eine der genannten "P-Hacking" -Techniken. Wenn es stimmt, dass es nur einen Datensatz gibt und niemand selektive Stichproben daraus auswählt, gibt es vermutlich keinen Raum für eine Erhöhung der Stichprobengröße.

Kann das Problem, mehrere Tests durchzuführen, aber nur ein Modell zu melden, einfach dadurch behoben werden, dass jemand anderes in der Disziplin Ihr Papier erneut testet und Sie sofort niederschlägt, weil Sie keine soliden Ergebnisse erzielen? In Erwartung dessen schließen Wissenschaftler in meinem Bereich eher einen Abschnitt zur Robustheitsprüfung ein, in dem sie zeigen, dass mehrere Modellspezifikationen das Ergebnis nicht ändern. Ist das ausreichend

Wenn die Replikation ohne Publikationsverzerrung erfolgen würde, wären keine "Journale mit dem Nullergebnis" erforderlich. Ich würde sagen, dass der Abschnitt zur Robustheitsprüfung gut zu haben ist, aber nicht ausreicht, wenn Forscher nicht veröffentlichen, was sie als Nullergebnisse betrachten. Ich würde ein Ergebnis auch nicht als robust betrachten, nur weil mehrere Analysetechniken mit denselben Daten zu demselben Ergebnis kommen. Ein robustes Ergebnis ist ein Ergebnis, das eine korrekte Vorhersage der Auswirkung / Korrelation / usw. auf neue Daten ermöglicht .

Eine Replikation erhält nicht beide Male p <0,05. Die Theorie sollte als robuster angesehen werden, wenn sie einen anderen Effekt / eine andere Korrelation / usw. vorhersagt als in der ersten Studie. Ich beziehe mich nicht auf das Vorhandensein eines Effekts oder einer Korrelation, sondern auf den genauen Wert oder einen kleinen Wertebereich im Vergleich zu einem möglichen Wertebereich. Das Vorhandensein eines erhöhten / verringerten Effekts oder einer positiven / negativen Korrelation ist zu 100% wahr, wenn die Nullhypothese falsch ist. Lesen Sie Meehl.

Andrew Gelman und andere weisen darauf hin, dass es unabhängig von den Daten immer möglich wäre, ein "Muster" zu finden und zu veröffentlichen, das nicht wirklich vorhanden ist. Dies sollte jedoch kein Problem sein, da jedes empirische "Muster" durch eine Theorie gestützt werden muss und rivalisierende Theorien innerhalb einer Disziplin nur eine Debatte / ein Rennen führen, um herauszufinden, welches Lager mehr "Muster" finden kann. an verschiedenen Orten. Wenn ein Muster wirklich falsch ist, wird die dahinter stehende Theorie schnell niedergeschlagen, wenn es in anderen Samples / Einstellungen kein ähnliches Muster gibt. Geht die Wissenschaft nicht so voran?

Die Wissenschaft kann nicht richtig funktionieren, wenn Forscher keine Nullergebnisse veröffentlichen. Nur weil das Muster in der zweiten Stichprobe / Einstellung nicht entdeckt wurde, bedeutet dies nicht, dass es unter den Bedingungen der ersten Studie nicht existiert.

Unter der Annahme, dass der aktuelle Trend der Zeitschriften für Nullergebnisse tatsächlich florieren wird, gibt es eine Möglichkeit für uns, alle Nullergebnisse und positiven Ergebnisse zusammenzufassen und auf die Theorie zu schließen, die alle zu testen versuchen?

Dies wäre eine Metaanalyse . Nullergebnisse haben in diesem Fall nichts Besonderes, außer dass Forscher sie nicht veröffentlichen, weil die p-Werte über dem willkürlichen Schwellenwert lagen. Bei Vorhandensein von Publikationsbias ist die Metaanalyse unzuverlässig, ebenso wie die gesamte Literatur, die unter Publikationsbias leidet. Obwohl dies nützlich sein kann, ist die Metaanalyse für die Bewertung einer Theorie weit unterlegen, als wenn diese Theorie eine genaue Vorhersage trifft, die dann getestet wird. Publikationsbias spielt bei weitem keine Rolle, solange neue Vorhersagen auftauchen und von unabhängigen Gruppen repliziert werden.

— Flasche
quelle

Meine Verwirrung über das Zeitzitat ist, dass die Potenzfunktion nicht darauf beschränkt sein sollte, wann die Null wahr ist, wie das Zitat impliziert. Die Domäne der Potenzfunktion ist der gesamte Parameterraum, wenn ich mich nicht irre. Und daher gibt es keine bestimmte "Leistung 0,8", die man einem Test zuordnen kann.

— Heisenberg

Ich stimme Ihnen voll und ganz zu, dass eine Theorie an neuen Daten getestet werden muss. Aber im Fall der Politikwissenschaft oder der Makroökonomie, wo wir nur so viele Länder und so viele Jahre haben, werden die Anstrengungen dann notwendigerweise vereitelt?

— Heisenberg

@Anh jede Sekunde gibt es neue Daten hinzuzufügen. Die Theorie sollte die Zukunft vorhersagen. In der Astronomie wurden beispielsweise die Positionen von Kometen vorhergesagt. Außerdem berechnen Sie die Leistung für einen erwarteten Parameterwert. Im Fall des Zitats würden sie sich also auf die Fähigkeit beziehen, eine Theorie zu testen, die eine Korrelation von mindestens r = 0,5 vorhersagte.

— Flasche

Die Klärung von r = 0,5 wäre ein Beispiel für eine durch eine Theorie vorhergesagte Korrelation.

— Flasche

2

Ich würde es einfach so ausdrücken, da es beim Testen von Nullhypothesen wirklich nur um die Nullhypothese geht. Und im Allgemeinen ist die Nullhypothese normalerweise nicht von Interesse und möglicherweise nicht einmal "der Status quo" - insbesondere beim Testen von Hypothesen vom Regressionstyp. In der Sozialwissenschaft gibt es oft keinen Status quo, daher kann die Nullhypothese ziemlich willkürlich sein. Dies macht einen großen Unterschied für die Analyse, da der Ausgangspunkt undefiniert ist und verschiedene Untersuchungen mit unterschiedlichen Nullhypothesen beginnen, höchstwahrscheinlich basierend auf den verfügbaren Daten. Vergleichen Sie dies mit so etwas wie Newtons Bewegungsgesetzen - es ist sinnvoll, dies als Nullhypothese zu verwenden und von diesem Ausgangspunkt aus bessere Theorien zu finden.

Außerdem berechnen p-Werte nicht die richtige Wahrscheinlichkeit - wir möchten nichts über die Schwanzwahrscheinlichkeiten wissen, es sei denn, die alternative Hypothese ist wahrscheinlicher, wenn Sie sich weiter in die Schwänze hineinbewegen. Was Sie wirklich wollen, ist, wie gut die Theorie vorhersagt, was tatsächlich gesehen wurde. Angenommen, ich sage voraus, dass eine 50% ige Chance auf eine "leichte Dusche" besteht, und mein Konkurrent sagt voraus, dass eine 75% ige Chance besteht. Dies stellt sich als richtig heraus und wir beobachten eine leichte Dusche. Wenn Sie nun entscheiden, welche Wetterperson richtig ist, sollten Sie meiner Vorhersage keine zusätzliche Anerkennung dafür geben, dass Sie auch eine 40% ige Chance auf ein "Gewitter" haben, oder meinem Konkurrenten die Gutschrift wegnehmen, wenn Sie "Gewitter" eine 0% ige Chance geben.

$I$ $D$ $H$

B F = \frac{P (D | H I)}{P (D | \bar{H} I)}

$BF=\frac{P(D|HI)}{P(D|\overline{H}I)}$

$H$ $BF=\infty$ $H$ $0.001$

$104,490,000$ $52,263,471$ $y\sim Bin(n,0.5)$ $y|\theta\sim Bin(n,\theta)$ $\theta\sim U(0,1)$ $y\sim BetaBin(n,1,1)\sim DU(0,\dots,n)$ $p=0.00015$

B F = \frac{(\binom{n}{y}) 2^{- n}}{\frac{1}{n + 1}} = \frac{(n + 1)!}{2^{n} y! (n - y)!} = 11.90

$BF=\frac{{n\choose y}2^{-n}}{\frac{1}{n+1}}=\frac{(n+1)!}{2^ny!(n-y)!}=11.90$

$\frac{1}{n+1}=0.0000000096$ $0.00000011$

Dies gilt insbesondere für das Beispiel, das Gelman kritisiert - es wurde immer nur eine Hypothese getestet, und es wurde nicht viel darüber nachgedacht, a) welche alternativen Erklärungen vorliegen (insbesondere zu Verwirrung und nicht kontrollierten Effekten), b) wie viel die Alternativen, die durch frühere Untersuchungen gestützt wurden, und vor allem: c) Welche Vorhersagen treffen sie (falls vorhanden), die sich wesentlich von der Null unterscheiden?

$\overline{H}$ $H_1,\dots,H_K$ $H_k$ $0.01$ $0.1$

$K$

H_{K + 1} = Something else not yet thought of

$H_{K+1}=\text{Something else not yet thought of}$

H_{K + 1}

$H_{K+1}$

H_{1}, \dots, H_{K}

$H_1,\dots,H_K$

H_{0}

$H_0$

H_{A}

$H_A$

H_{1}, \dots, H_{K}

$H_1,\dots,H_K$

— Wahrscheinlichkeitslogik
quelle