ASA diskutiert Einschränkungen von

100

Wir haben bereits mehrere Threads als p-Werte markiert , die viele Missverständnisse über sie aufdecken. Vor zehn Monaten hatten wir einen Thread über ein psychologisches Journal, das $p$ Werte "verbot" . Jetzt sagt die American Statistical Association (2016) , dass wir mit unserer Analyse "nicht mit der Berechnung eines Werts enden sollten ". $p$

Die American Statistical Association (ASA) ist der Ansicht, dass die wissenschaftliche Gemeinschaft von einer formellen Erklärung profitieren könnte, in der mehrere allgemein vereinbarte Prinzipien erläutert werden, die der richtigen Verwendung und Interpretation des Werts zugrunde liegen. $p$

Das Komitee listet andere Ansätze als mögliche Alternativen oder Ergänzungen zu Werten auf: $p$

In Anbetracht der weit verbreiteten Missbräuche und Missverständnisse in Bezug auf Werte ziehen es einige Statistiker vor, Werte durch andere Ansätze zu ergänzen oder sogar zu ersetzen . Dazu gehören Methoden, bei denen die Schätzung gegenüber dem Testen im Vordergrund steht, z. B. das Vertrauen, die Glaubwürdigkeit oder die Vorhersageintervalle. Bayesianische Methoden; alternative Evidenzmaße wie Likelihood Ratios oder Bayes Factors; und andere Ansätze wie entscheidungstheoretische Modellierung und falsche Entdeckungsraten. Alle diese Maßnahmen und Ansätze beruhen auf weiteren Annahmen, sie können sich jedoch direkter auf die Größe eines Effekts (und die damit verbundene Unsicherheit) oder auf die Richtigkeit der Hypothese beziehen. $p$ $p$

Stellen wir uns also die Realität nach Werten vor. ASA listet einige Methoden auf, die anstelle von Werten verwendet werden können, aber warum sind sie besser? Welcher von ihnen kann ein Forscher ersetzen, der sein ganzes Leben lang Werte verwendet hat? Ich stelle mir vor, dass diese Art von Fragen in der Post- Wert-Realität auftauchen wird. Versuchen wir also, ihnen einen Schritt voraus zu sein. Was ist die vernünftige Alternative, die sofort angewendet werden kann? Warum sollte dieser Ansatz Ihren leitenden Forscher, Herausgeber oder Leser überzeugen? $p$ $p$ $p$ $p$

Wie dieser nachfolgende Blogeintrag nahe legt, sind Werte in ihrer Einfachheit unschlagbar: $p$

Für den p-Wert ist nur ein statistisches Modell erforderlich, damit das Verhalten einer Statistik unter der Nullhypothese gilt. Selbst wenn ein Modell einer alternativen Hypothese zur Auswahl einer "guten" Statistik verwendet wird (die zur Konstruktion des p-Werts verwendet werden würde), muss dieses alternative Modell nicht korrekt sein, damit der p-Wert gültig und gültig ist nützlich (dh: Kontrollfehler Typ I auf dem gewünschten Niveau, während ein gewisses Maß an Leistung zur Erkennung eines echten Effekts angeboten wird). Im Gegensatz dazu benötigen andere (wunderbare und nützliche) statistische Methoden wie Likelihood-Verhältnisse, Effektgrößenschätzung, Konfidenzintervalle oder Bayes'sche Methoden die angenommenen Modelle, um einen größeren Bereich von Situationen abzudecken, nicht nur unter der getesteten Null.

Sind sie oder ist es vielleicht nicht wahr und wir können sie leicht ersetzen?

Ich weiß, das ist weit gefasst, aber die Hauptfrage ist einfach: Was ist die beste (und warum) echte Alternative zu Werten, die als Ersatz verwendet werden können? $p$

ASA (2016). ASA-Stellungnahme zur statistischen Signifikanz und zu Werten. $P$ Der amerikanische Statistiker. (in der Presse)

— Tim
quelle

3

Gebunden, eine klassische Frage +1 zu werden! Der Bayes'sche Ansatz, weil er es uns erlaubt, die Frage, die uns oft interessiert, (zumindest subjektiv) zu beantworten, nämlich: "Welche Wahrscheinlichkeit besteht angesichts der Beweise (Daten), dass die Hypothese wahr ist?"

— Christoph Hanck

9

"Post-

value reality" hat einen schönen dystopischen Klang.

p

$p$

— Marc Claesen

4

Die Diskussionspapiere, die zusammen mit der ASA-Erklärung veröffentlicht wurden, sind lesenswert, da einige Vorschläge enthalten, was p-Werte ersetzen könnte. Ergänzender Inhalt

— Seth

2

Ich habe eine verwandte Frage gestellt, die auf einem anderen Teil des ASA-Berichts basiert, einer seiner Warnungen vor dem möglichen Missbrauch von p-Werten: Wie viel wissen wir über p-Hacking?

— Silverfish

1

Als Kommentar zu meiner eigenen Frage gibt es einen netten Thread, der ein ähnliches Thema behandelt: stats.stackexchange.com/questions/17897/…

— Tim

100

Ich werde diese Antwort auf die spezifische Frage konzentrieren, was die Alternativen zu Werten sind. $p$

Es wurden 21 Diskussionspapiere zusammen mit der ASA-Erklärung (als Supplemental Materials) veröffentlicht: von Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Grönland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark und Steve Ziliak (einige von ihnen schrieben zusammen Ich liste alles für zukünftige Suchen auf. Diese Personen decken wahrscheinlich alle vorhandenen Meinungen über Werte und statistische Inferenz ab. $p$

Ich habe alle 21 Papiere durchgesehen.

Leider diskutieren die meisten von ihnen keine wirklichen Alternativen, obwohl es in der Mehrzahl um Einschränkungen, Missverständnisse und verschiedene andere Probleme mit Werten geht (zur Verteidigung von Werten siehe Benjamini, Mayo und Senn). Dies legt bereits nahe, dass Alternativen, falls vorhanden, nicht leicht zu finden und / oder zu verteidigen sind. $p$ $p$

Schauen wir uns also die Liste der "anderen Ansätze" an, die in der ASA-Anweisung selbst angegeben sind (wie in Ihrer Frage angegeben):

[Andere Ansätze] umfassen Methoden, bei denen die Schätzung gegenüber dem Testen im Vordergrund steht, z. B. das Vertrauen, die Glaubwürdigkeit oder die Vorhersageintervalle. Bayesianische Methoden; alternative Evidenzmaße wie Likelihood Ratios oder Bayes Factors; und andere Ansätze wie entscheidungstheoretische Modellierung und falsche Entdeckungsraten.

Vertrauensintervalle

Konfidenzintervalle sind ein häufig verwendetes Werkzeug, das mit Werten einhergeht. Es ist fast immer eine gute Idee, ein Konfidenzintervall (oder ein äquivalentes, z. B. Mittelwert Standardfehler des Mittelwerts) zusammen mit dem Wert anzugeben. $p$ $\pm$ $p$

Einige Leute (nicht unter den ASA-Disputanten) schlagen vor, dass Konfidenzintervalle die Werte ersetzen sollten . Einer der ausgesprochensten Befürworter dieses Ansatzes ist Geoff Cumming, der es neue Statistiken nennt (ein Name, den ich entsetzlich finde). Siehe zB diesen Blog-Beitrag von Ulrich Schimmack für eine ausführliche Kritik: Eine kritische Überprüfung von Cummings (2014) neuer Statistik: Wiederverkauf alter Statistiken als neue Statistiken . Siehe auch Wir können es uns nicht leisten, die Effektgröße im Laborblog- Beitrag von Uri Simonsohn zu einem verwandten Thema zu untersuchen. $p$

Siehe auch diesen Thread (und meine Antwort darin) über den similiar Vorschlag von Norm Matloff wo ich argumentiere , dass , wenn CIs Berichterstattung man noch die haben möchte -Werten berichtete auch: Was ist ein gutes, überzeugendes Beispiel ist in der p-Werte sind nützlich? $p$

Einige andere Personen (auch nicht die ASA-Disputanten) argumentieren jedoch, dass Konfidenzintervalle als häufiges Instrument ebenso fehlgeleitet sind wie Werte und auch entsorgt werden sollten. Siehe z. B. Morey et al. 2015, Der Irrtum, Vertrauen in Vertrauensintervalle zu setzen, von @Tim hier in den Kommentaren verlinkt. Dies ist eine sehr alte Debatte. $p$
Bayesianische Methoden

(Mir gefällt nicht, wie die ASA-Anweisung die Liste formuliert. Glaubwürdige Intervalle und Bayes-Faktoren werden getrennt von "Bayes-Methoden" aufgeführt, aber es handelt sich offensichtlich um Bayes-Werkzeuge. Deshalb zähle ich sie hier zusammen.)
- Es gibt eine riesige und sehr aufgeschlossene Literatur über die Debatte zwischen Bayesian und Frequentist. Siehe zum Beispiel diesen aktuellen Thread für einige Gedanken: Wann (wenn überhaupt) ist ein frequentistischer Ansatz wesentlich besser als ein bayesianischer? Eine Bayes'sche Analyse ist durchaus sinnvoll, wenn man gute informative Prioritäten hat und jeder nur gerne oder anstelle von berechnen und angeben würde $p(\theta|\text{data})$ $p(H_0:\theta=0|\text{data})$ $p(\text{data at least as extreme}|H_0)$ - Aber leider haben die Leute normalerweise keine guten Vorgesetzten. Ein Experimentator registriert 20 Ratten, die unter einer Bedingung etwas tun, und 20 Ratten, die unter einer anderen Bedingung dasselbe tun. Die Vorhersage ist, dass die Leistung der ersteren Ratten die Leistung der letzteren Ratten übersteigen wird, aber niemand wäre bereit oder in der Lage, eine klare Aussage über die Leistungsunterschiede zu treffen. (Aber siehe @ FrankHarrells Antwort, in der er die Verwendung von "skeptischen Vorgesetzten" befürwortet.)
- Die eingefleischten Bayesianer schlagen vor, Bayesianische Methoden anzuwenden, auch wenn man keine informativen Vorbilder hat. Ein aktuelles Beispiel ist Krushke, 2012, Bayes'sche Schätzung ersetzt den Test $t$ , der demütig als BEST abgekürzt wird. Die Idee ist, ein Bayes'sches Modell mit schwachen, nicht informativen Priors zu verwenden, um den Posterior für den Effekt von Interesse zu berechnen (wie z. B. eine Gruppendifferenz). Der praktische Unterschied zum frequentistischen Denken scheint in der Regel gering zu sein, und meines Erachtens ist dieser Ansatz nach wie vor unpopulär. Siehe Was ist ein "nicht informativer Prior"? Können wir jemals eine haben, die wirklich keine Informationen hat? für die Erörterung dessen, was "uninformativ" ist (Antwort: Es gibt so etwas nicht, daher die Kontroverse).
- Ein alternativer Ansatz, der auf Harold Jeffreys zurückgeht, basiert auf Bayes- Tests (im Gegensatz zu Bayes- Schätzungen ) und verwendet Bayes-Faktoren. Einer der beredten und produktivsten Befürworter ist Eric-Jan Wagenmakers, der veröffentlicht hat viel zu diesem Thema in der letzten Jahren. Zwei Merkmale dieses Ansatzes sind hier hervorzuheben. Siehe zunächst Wetzels et al., 2012, A Default Bayesian Hypothesis Test for ANOVA Designs, um zu veranschaulichen, wie stark das Ergebnis eines solchen Bayesian Tests von der spezifischen Wahl der alternativen Hypothese abhängen kann $H_1$ und die von ihm gesetzte Parameterverteilung ("prior"). Zweitens, sobald ein "vernünftiger" Prior gewählt wurde (Wagenmakers wirbt für Jeffreys sogenannte "Standard" -Prioren), stellen sich die resultierenden Bayes-Faktoren oft als ziemlich konsistent mit den Standard- Werten heraus, siehe z. B. diese Zahl aus diesem Preprint von Marsman & Wagenmacher : $p$
  
  Während Wagenmakers et al. hält darauf , dass -Werten zutiefst fehlerhaft sind und Bayes Faktoren sind der Weg zu gehen, kann man nicht , aber frag dich ... (Um fair zu sein, ist der Punkt von Wetzels et al. 2011 ist , dass für - Werte der Nähe von Bayes Faktoren nur deuten auf sehr schwache Beweise gegen die Null hin, aber beachten Sie, dass dies in einem häufig vorkommenden Paradigma einfach durch die Verwendung eines strengeren ; $p$ $p$ $0.05$ $\alpha$
  
  Eine der populäreren Veröffentlichungen von Wagenmakers et al. In der Verteidigung der Bayes-Faktoren heißt es 2011: Warum Psychologen die Art und Weise ändern müssen, in der sie ihre Daten analysieren: Der Fall von psi, in dem er argumentiert, dass das berüchtigte Bem-Papier zur Vorhersage der Zukunft nicht zu den falschen Schlussfolgerungen gekommen wäre, wenn sie stattdessen nur Bayes-Faktoren verwendet hätten von -Werten. In diesem nachdenklichen Blog-Beitrag von Ulrich Schimmack finden Sie ein ausführliches (und meiner Meinung nach überzeugendes) Gegenargument: Warum Psychologen die Art und Weise, wie sie ihre Daten analysieren, nicht ändern sollten: Der Teufel steht an voreingestellter Stelle . $p$
  
  Siehe auch Der Bayesianische Standardtest ist ein Vorurteil gegen Small Effects- Blogbeitrag von Uri Simonsohn.
- Der Vollständigkeit halber $p$ erwähne ich, dass Wagenmakers 2007, eine praktische Lösung für die allgegenwärtigen Probleme der Werte, vorschlug, BIC als Annäherung an den Bayes-Faktor zu verwenden, um die Werte zu ersetzen . BIC hängt nicht vom Prior ab und ist daher trotz seines Namens nicht wirklich bayesianisch; Ich bin mir nicht sicher, was ich von diesem Vorschlag halten soll. Es scheint, dass Wagenmakers in jüngerer Zeit eher Bayes-Tests mit uninformativen Jeffreys-Priors befürwortet, siehe oben. $p$
Weitere Informationen zur Bayes-Schätzung im Vergleich zum Bayes-Test finden Sie unter Bayes-Parameterschätzung oder Testen der Bayes-Hypothese. und Links darin.
Minimum Bayes Faktoren

Unter den ASA-Disputanten wird dies ausdrücklich von Benjamin & Berger und Valen Johnson vorgeschlagen (die einzigen beiden Papiere, in denen es um konkrete Alternativen geht). Ihre spezifischen Vorschläge sind ein bisschen anders, aber sie ähneln sich im Geist.
- Die Ideen von Berger gehen auf Berger & Sellke 1987 zurück und es gibt eine Reihe von Artikeln von Berger, Sellke und Mitarbeitern, die sich bis zum letzten Jahr mit dieser Arbeit befassen. Die Idee ist, dass unter einer Spitze und Platte vor dem Punkt Null Hypothese die Wahrscheinlichkeit erhält und alle anderen Werte von die Wahrscheinlichkeit symmetrisch um ("lokale Alternative") verteilt werden, und dann das minimale hintere über Alle lokalen Alternativen, dh der minimale Bayes-Faktor , ist viel höher als der $\mu=0$ $0.5$ $\mu$ $0.5$ $0$ $p(H_0)$ $p$ -Wert. Dies ist die Grundlage der (viel umstrittenen) Behauptung, dass Werte die Beweise gegen die Null "überbewerten". Der Vorschlag ist, anstelle des Werts eine Untergrenze für den Bayes-Faktor zu verwenden ; Unter einigen allgemeinen Annahmen ergibt sich diese Untergrenze zu , dh der Wert wird effektiv mit multipliziert, was für den gemeinsamen Bereich ein Faktor von etwa bis ist von -Werten. Dieser Ansatz wurde befürwortet $p$ $p$ $-ep\log(p)$ $p$ $-e\log(p)$ $10$ $20$ $p$ von Steven Goodman auch.
  
  Späteres Update: Sehen Sie sich einen schönen Cartoon an , der diese Ideen auf einfache Weise erklärt.
  
  Noch spätere Aktualisierung: Siehe Held & Ott, 2018, On -Values and Bayes Factors (Über Werte und Bayes-Faktoren) $p$ für eine umfassende Überprüfung und weitere Analyse der Umwandlung von Werten in minimale Bayes-Faktoren. Hier ist eine Tabelle von dort: $p$
- Valen Johnson schlug etwas Ähnliches in seiner PNAS 2013-Veröffentlichung vor ; sein Vorschlag läuft darauf hinaus, Werte mit zu multiplizieren $p$ was ungefährbis. $\sqrt{-4\pi\log(p)}$ $5$ $10$
Eine kurze Kritik von Johnsons Artikel finden Sie in der Antwort von Andrew Gelman und @ Xi'an in PNAS. Zum Gegenargument zu Berger & Sellke 1987 siehe Casella & Berger 1987 (anders Berger!). Stephen Senn spricht sich in den APA-Diskussionspapieren ausdrücklich gegen einen dieser Ansätze aus:

Fehlerwahrscheinlichkeiten sind keine hinteren Wahrscheinlichkeiten. Zweifellos ist die statistische Analyse viel mehr als nur Werte, aber sie sollten in Ruhe gelassen werden, anstatt in irgendeiner Weise deformiert zu werden, um Bayes'sche posteriore Wahrscheinlichkeiten zweiter Klasse zu erhalten. $P$

Siehe auch Verweise in Senns Artikel, einschließlich der Verweise auf Mayos Blog.
Die ASA-Anweisung listet als weitere Alternative "Entscheidungstheoretische Modellierung und falsche Entdeckungsraten" auf. Ich habe keine Ahnung, wovon sie sprechen, und ich war froh zu sehen, dass dies in dem Diskussionspapier von Stark festgehalten wurde:

Der Abschnitt "Andere Ansätze" ignoriert die Tatsache, dass die Annahmen einiger dieser Methoden mit denen von Werten identisch sind . In der Tat verwenden einige der Methoden Werte als Eingabe (z. B. die False Discovery Rate). $p$ $p$

Ich bin sehr skeptisch, dass es irgendetwas gibt , das Werte in der tatsächlichen wissenschaftlichen Praxis ersetzen kann, sodass die Probleme, die häufig mit Werten verbunden sind (Replikationskrise, Hacking usw.) , verschwinden würden. Jede feste Entscheidungsverfahren, zB ein Bayesian ein, kann wahrscheinlich werden „gehackt“ in der gleichen Weise wie - Werte können sein -hacked (für einige Diskussion und Demonstration dieser sehen diese 2014 Blog - Post von Uri Simonsohn ). $p$ $p$ $p$ $p$ $p$

So zitieren Sie aus Andrew Gelmans Diskussionspapier:

Zusammenfassend stimme ich den meisten Aussagen der ASA zu Werten zu, bin jedoch der Ansicht, dass die Probleme tiefer liegen und dass die Lösung nicht darin besteht, Werte zu reformieren oder durch eine andere statistische Zusammenfassung oder Schwelle zu ersetzen, sondern dies zu tun eine größere Akzeptanz der Unsicherheit und die Akzeptanz von Variationen anstreben. $p$ $p$

Und von Stephen Senn:

Kurz gesagt, das Problem ist weniger bei Werten als bei der Herstellung eines Idols aus ihnen. Das Ersetzen eines anderen falschen Gottes wird nicht helfen. $P$

Und so hat Cohen es in seinem bekannten und vielzitierten (3,5k-Zitate) 1994 erschienenen Aufsatz The Earth is round ( ) $p<0.05$ formuliert, in dem er sich sehr stark gegen Werte aussprach: $p$

[...] suchen Sie nicht nach einer magischen Alternative zu NHST, einem anderen objektiven mechanischen Ritual, um es zu ersetzen. Es existiert nicht.

— Amöbe
quelle

1

@amoeba danke, das ist eine großartige Zusammenfassung! Ich stimme Ihrer Skepsis zu - dieser Thread ist teilweise entstanden, weil ich ihn teile. In diesem Moment lasse ich den Thread offen - ohne akzeptierte Antwort -, da vielleicht jemand überzeugende Beispiele und Argumente liefern kann, dass es eine echte, gute Alternative gibt.

— Tim

1

@amoeba bezüglich Wagenmakers und BIC ist es gut, es mit der Kritik zu vergleichen, zB von Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah

— Tim

2

Dies ist eine wirklich beeindruckende Antwort, die es verdient, zu den am besten bewerteten Antworten im Lebenslauf zu gehören. Möglicherweise füge ich irgendwann nach Tim noch ein Kopfgeld hinzu.

— gung

Danke, @gung, ich freue mich, das zu hören. Es bedeutet, dass viel von dir kommt. Ich sollte jedoch sagen, dass ich mit Bayes'schen Tests nur oberflächlich vertraut bin und keine praktischen Erfahrungen damit habe. Diese Antwort bietet also eine Zusammenfassung dessen, was ich gelesen habe, aber es ist nicht wirklich eine Expertenmeinung.

— Amöbe

1

Nein, Sie benötigen keine informativen Vorkenntnisse, damit Bayes gut funktioniert. Wie Spiegelhalter so gut gezeigt hat, spielen skeptische Vorgesetzte eine große Rolle und sind einfach zu bedienen. Bayesianische posteriore Wahrscheinlichkeiten haben große Vorteile.

— Frank Harrell

27

Hier sind meine zwei Cent.

Ich denke, dass viele angewandte Wissenschaftler irgendwann den folgenden "Satz" formulierten:

$p\text{-value}<0.05\Leftrightarrow \text{my hypothesis is true}.$

und die meisten schlechten Praktiken kommen von hier.

$p$

Früher habe ich mit Leuten gearbeitet, die Statistiken verwendet haben, ohne sie wirklich zu verstehen, und hier sind einige der Dinge, die ich sehe:

$p<0.05$
$p<0.05$
$0.05$

All dies wird von versierten, ehrlichen Wissenschaftlern gemacht, die kein starkes Gefühl des Betrugs haben. Warum ? IMHO, wegen Satz 1.

$p$ $0.05$ $p$ $<0.05$ $p$ $<0.05$

$p$

$p$ $>0.05$

$H_0: \mu_1 \ne \mu_2$ $p$ $H_0$ $p=0.2$

$p$ $p(\mu_1>\mu_2|x)$ $p(\mu_1<\mu_2|x)$ $\mu_1>\mu_2$ $\mu_2>\mu_1$

Ein weiterer verwandter Fall ist, wenn Experten Folgendes möchten:

$\mu_1>\mu_2>\mu_3$ $\mu_1=\mu_2=\mu_3$ $\mu_1>\mu_2>\mu_3$

Die Erwähnung der alternativen Hypothese ist die einzige Lösung, um diesen Fall zu lösen.

Die Verwendung der posterioren Quoten, des Bayes-Faktors oder des Likelihood-Verhältnisses in Verbindung mit dem Vertrauen / den glaubwürdigen Intervallen scheint also die Hauptprobleme zu reduzieren.

$p$

$p$ $p$

Meine zwei Cent Schlussfolgerung

$p$

— peuhp
quelle

Vielleicht könnten Sie Ihr Beispiel so bearbeiten, dass es klarer wird, denn was haben Sie vorerst berechnet, was waren die Daten und woher kamen die Zahlen?

— Tim

@Tim. Tks für den Feedbak. Auf welches Beispiel beziehen Sie sich?

— Peuhp

"Versuchen Sie, (nur weil wir die Daten haben) eine Hypothese zu vergleichen: Nehmen Sie 10 und 10 Daten, berechnen Sie den p-Wert. Finden Sie p = 0,2 ..."

— Tim

1

Ich glaube auch nicht, dass es richtig ist, Ihre Hypothese zu "kennen", auch wenn die Daten andernfalls zu suggerieren scheinen, dass dies notwendigerweise eine schlechte Sache ist. So hat Gregor Mendel anscheinend gespürt, wenn etwas mit seinen Experimenten nicht stimmte, weil er eine so starke Intuition hatte, dass seine Theorien richtig waren.

— Dsaxton

@dsaxton Stimmen Sie voll und ganz zu. Vielleicht ist es nicht so klar, aber dies ist eine Sache, die ich in meinem ersten Punkt zu veranschaulichen versuche: p-Wert ist nicht der ultimative Schlüssel für die wissenschaftliche Induktion (obwohl es für ein bestimmtes Publikum zu sein scheint). Hierbei handelt es sich um eine statistische Messung von Beweisen, die anhand einer bestimmten Datenmenge unter bestimmten Bedingungen erstellt wurden. Und in einem Fall, in dem Sie zu viele externe Gründe haben, um anzunehmen, dass die Hyp wahr ist, die Daten jedoch den "guten" p-Wert liefern, können andere Dinge besprochen werden, wie Sie es angemessen erwähnt haben. Ich werde versuchen, es in meiner Antwort klarer zu machen.

— peuhp

24

$P$

Für frequentistische Methoden steht mehr Software zur Verfügung als für Bayes-Methoden.
Derzeit dauern einige Bayes'sche Analysen sehr lange.
Bayesianische Methoden erfordern mehr Denken und mehr Zeitaufwand. Ich habe nichts gegen das Nachdenken, aber die Zeit ist oft kurz, so dass wir Abkürzungen nehmen.
Der Bootstrap ist eine hochflexible und nützliche alltägliche Technik, die mehr mit der frequentistischen als mit der bayesianischen Welt verbunden ist.

$P$ $P$ macht es erforderlich, willkürliche Anpassungen an der Vielzahl vorzunehmen, und zwar sogar an Datenaussehen, die möglicherweise einen Einfluss hatten, dies aber tatsächlich nicht taten.

$P$

Mit Ausnahme der linearen Modelle nach Gauß und der Exponentialverteilung ist fast alles, was wir mit der frequentistischen Inferenz tun, ungefähr (ein gutes Beispiel ist das binäre logistische Modell, das Probleme verursacht, weil seine logarithmische Wahrscheinlichkeitsfunktion sehr unquadratisch ist). Mit der Bayes'schen Folgerung stimmt alles mit dem Simulationsfehler überein (und Sie können immer mehr Simulationen durchführen, um hintere Wahrscheinlichkeiten / glaubwürdige Intervalle zu erhalten).

Ich habe unter http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html eine detailliertere Darstellung meines Denkens und meiner Entwicklung verfasst

— Frank Harrell
quelle

3

p

$p$

2

p

$p$

3

t

$t$

1

Frank, danke. Ich bin mit Bayes-Tests nicht sehr vertraut (und habe noch nie von Box & Tiao gehört), aber mein allgemeiner Eindruck ist, dass der Bayes-Faktor, den man aus einem Bayes-Test herausholt, ziemlich stark von der konkreten Wahl eines uninformativen Vorgängers abhängen kann geht in. Und diese Entscheidungen können schwierig zu motivieren sein. Ich denke, dasselbe gilt für glaubwürdige Intervalle - sie hängen stark von der Wahl eines nicht informativen Prior ab. Ist es nicht wahr Wenn ja, wie soll man damit umgehen?

— Amöbe

2

Ja, obwohl ich keine Bayes-Faktoren benutze. Der frequentistische Ansatz wählt auch einen Prior - einen, der alle anderen Kenntnisse über das Thema ignoriert. Ich bevorzuge den skeptischen Ansatz von Spiegelhalter. In einer idealen Welt lassen Sie Ihre Skeptiker die Prioritäten setzen.

— Frank Harrell

6

Scott Armstrong, ein brillanter Prognostiker aus Wharton, veröffentlichte vor fast 10 Jahren einen Artikel mit dem Titel Significance Tests Harm Progress in Forecasting in der internationalen Zeitschrift Forecasting einer von ihm mitbegründeten Zeitschrift. Auch wenn es sich um Prognosen handelt, können diese auf jede Datenanalyse oder Entscheidungsfindung verallgemeinert werden. In dem Artikel stellt er fest, dass:

"Tests mit statistischer Signifikanz schaden dem wissenschaftlichen Fortschritt. Versuche, Ausnahmen von dieser Schlussfolgerung zu finden, haben bisher keine ergeben."

Dies ist eine hervorragende Lektüre für alle, die sich für eine gegensätzliche Betrachtung von Signifikanztests und P-Werten interessieren.

Der Grund, warum mir dieser Artikel gefällt, ist, dass Armstrong Alternativen zu Signifikanztests bietet, die kurz und bündig sind und insbesondere für einen Nicht-Statistiker wie mich leicht verständlich sind. Dies ist meiner Meinung nach viel besser als der in der Frage zitierte ASA-Artikel:

Alles, was ich nach wie vor begrüße und seitdem nicht mehr mit Signifikanztests oder mit Blick auf P-Werte arbeite, außer wenn ich randomisierte experimentelle Studien oder Quasi-Experimente durchführe. Ich muss hinzufügen, dass randomisierte Experimente in der Praxis sehr selten sind, außer in der pharmazeutischen Industrie / den Biowissenschaften und in einigen Bereichen des Ingenieurwesens.

— Prognostiker
quelle

4

Was meinen Sie mit "randomisierte Experimente sind in der Praxis sehr selten, außer in der pharmazeutischen Industrie und in einigen Bereichen des Ingenieurwesens"? Randomisierte Experimente gibt es überall in der Biologie und Psychologie.

— Amöbe

Ich habe es bearbeitet, um die Biowissenschaften einzuschließen.

— Prognostiker

2

Okay, aber diesen Rand zu sagen. exp. sind "sehr selten" außer in Medizin und Biowissenschaften und Psychologie sagt im Grunde, dass sie "sehr häufig" sind. Ich bin mir also nicht sicher, was deinen Standpunkt betrifft.

— Amöbe

6

$p$

$p$ . Ich denke immer noch, dass dies ein angemessener Ansatz ist, der die Frage der wissenschaftlichen Anwendbarkeit der Ergebnisse in den Händen dieser Inhaltsexperten lässt. Der Fehler, den wir in modernen Anwendungen finden, ist in keiner Weise ein Fehler der Statistik als Wissenschaft. Ebenfalls im Spiel sind Angeln, Extrapolation und Übertreibung. Wenn (sagen wir) ein Kardiologe lügen und behaupten sollte, dass ein Medikament, das den durchschnittlichen Blutdruck um 0,1 mmHg senkt, "klinisch signifikant" ist, wird uns keine Statistik jemals vor dieser Art von Unehrlichkeit schützen.

Wir brauchen ein Ende der entscheidungstheoretischen statistischen Inferenz. Wir sollten uns bemühen, über die Hypothese hinauszudenken. Die wachsende Kluft zwischen klinischem Nutzen und hypothesengetriebener Untersuchung beeinträchtigt die wissenschaftliche Integrität. Die "signifikante" Studie ist äußerst suggestiv, verspricht jedoch selten klinisch bedeutsame Ergebnisse.

Dies ist offensichtlich, wenn wir die Attribute der hypothesengetriebenen Folgerung untersuchen:

Die angegebene Nullhypothese ist erfunden, stimmt nicht mit dem aktuellen Kenntnisstand überein und widerspricht der Vernunft oder den Erwartungen.
Hypothesen können tangential zu dem Punkt sein, den der Autor zu machen versucht. Statistiken stimmen nur selten mit einem Großteil der anschließenden Diskussion in Artikeln überein. Die Autoren machen weitreichende Behauptungen geltend, dass beispielsweise ihre Beobachtungsstudie Auswirkungen auf die öffentliche Ordnung und Öffentlichkeitsarbeit hat.
Hypothesen sind in dem Sinne unvollständig, dass sie die interessierende Population nicht angemessen definieren und zu einer Übergeneralisierung führen

Die Alternative ist für mich ein metaanalytischer Ansatz, zumindest ein qualitativer. Alle Ergebnisse sollten sorgfältig auf andere "ähnliche" Ergebnisse und Unterschiede überprüft werden, die sehr sorgfältig beschrieben wurden, insbesondere Einschluss- / Ausschlusskriterien, Einheiten oder Skalen für Expositionen / Ergebnisse sowie Effektgrößen und Unsicherheitsintervalle (am besten zusammengefasst mit 95% -KI) ).

Wir müssen auch unabhängige Bestätigungsversuche durchführen. Viele Menschen sind von einer scheinbar bedeutsamen Studie betroffen, aber ohne Replikation können wir nicht darauf vertrauen, dass die Studie ethisch einwandfrei durchgeführt wurde. Viele haben wissenschaftliche Karrieren gemacht, indem sie Beweise gefälscht haben.

— AdamO
quelle

"Der ursprüngliche Vorschlag von Fisher war, dass Wissenschaftler den p-Wert qualitativ mit der Leistung der Studie vergleichen und daraus Schlussfolgerungen ziehen sollten." Ich liebe diesen Punkt - haben Sie einen Hinweis, den ich zitieren könnte, wo Fisher das gesagt hat? Es wäre ein großer Schritt nach vorn, wenn die Wissenschaftler von einer einfachen Dichotomie von p <0,05 zu einer nur geringfügig weniger einfachen Dichotomie wechseln würden: "Wenn p <0,05 UND Potenz hoch ist, haben wir hinreichend starke Beweise. Wenn p> 0,05 ODER Macht war niedrig, wir werden das Urteil über diese Hypothese zurückhalten, bis wir mehr Daten bekommen. "

— Civilstat

6

$p$ $p$ $p$

Zwei Referenzen aus der medizinischen Literatur sind (1) von Langman, MJS mit dem Titel Towards Estimation and Confidence Intervals, und von Gardner, MJ und Altman, DG mit dem Titel Confidence Intervals anstatt {P} Values: Estimation anstelle von Hypothesentests

— mdewey
quelle

2

Eigentlich CIs Sie nicht zeigen Wirkung Größe und Präzision, überprüfen zB Morey et al (2015) „Der Irrtum Vertrauen der Platzierung in Konfidenzintervall“ Psychonomic Bulletin & Review: learnbayes.org/papers/confidenceIntervalsFallacy

— Tim

8

@ Tim, schönes Papier, ich habe es noch nie gesehen; Mir hat das U-Boot-Beispiel gefallen. Danke für den Link. Aber man sollte sagen, dass es von wahren Bayesianischen Partisanen geschrieben wurde: "Die nicht-Bayesianischen Intervalle haben unerwünschte, sogar bizarre Eigenschaften, die jeden vernünftigen Analytiker dazu veranlassen würden, sie als Mittel zur Schlußfolgerung abzulehnen." Jeder vernünftige Analyst! Beeindruckende Arroganz.

— Amöbe

1

@amoeba stimme zu, ich bin nur ein Gegenbeispiel, da es für mich nicht so offensichtlich ist, dass die Alternativen so klar und direkt sind, wie es auf den ersten Blick erscheinen mag.

— Tim

4

Obwohl interessant, fand ich das U-Boot-Beispiel nicht so überzeugend. Kein denkender Statistiker würde so argumentieren wie im Beispiel. Sie hören nicht auf zu denken und wenden eine Methode blind auf alle Situationen an, nur weil sie für andere nützlich ist.

— Dsaxton

2

@amoeba: In diesem speziellen Zitat bezieht sich "Die nicht-Bayes'schen Intervalle" speziell auf die in diesem Beispiel diskutierten Intervalle, nicht alle Intervalle, die durch die nicht-Bayes'sche Logik gerechtfertigt sind. Weitere Informationen finden

— richarddmorey

1

Ich würde weiterhin p-Werte verwenden, aber einfach vertrauenswürdige / glaubwürdige Intervalle hinzufügen, und möglicherweise für die Vorhersageintervalle der primären Ergebnisse. Es gibt ein sehr schönes Buch von Douglas Altman (Statistik mit Zuversicht, Wiley), und dank Boostrap- und MCMC-Ansätzen können Sie immer einigermaßen robuste Intervalle erstellen.

— Joe_74
quelle

6

Ich denke, Sie beantworten nicht wirklich die Hauptfrage: "Warum sind sie besser?" / "Warum sollte dieser Ansatz Ihren leitenden Forscher, Herausgeber oder Leser überzeugen?". Können Sie Ihre Wahl treffen?

— Peuhp

1. Das ermöglicht lediglich die derzeitige Praxis. 2. Es gibt sowieso die Tendenz, "Backdoor Signifikanztests" mit dem CI durchzuführen. 3. Signifikanztests (mit p-Werten oder CIs) führen zu einer geringen Reproduzierbarkeit (siehe Artikel von Tim Lash). 4. Die Forscher dürfen sich nicht die Mühe machen, eine klinisch signifikante Grenze oder Wirkungsschwelle vorzugeben.

— AdamO

1

$p$

ein ausgefeilteres Modell entwickeln, mit dem die Ergebnisse einer Zielpopulation simuliert werden können
Identifizieren und Messen von Attributen einer Zielgruppe, in der eine vorgeschlagene Entscheidung, Behandlung oder Politik umgesetzt werden könnte
Schätzen Sie durch Simulation einen erwarteten Verlust in Roheinheiten einer Zielmenge wie Lebensjahre, qualitätsbereinigte Lebensjahre, Dollars, Ernteerträge usw., und bewerten Sie die Unsicherheit dieser Schätzung.

Dies schließt auf jeden Fall ein normales Testen der Signifikanz von Hypothesen nicht aus, unterstreicht jedoch, dass statistisch signifikante Ergebnisse sehr frühe Zwischenschritte auf dem Weg zu echten Entdeckungen sind und wir erwarten sollten, dass Forscher viel mehr mit ihren Ergebnissen anfangen.

— AdamO
quelle

ASA diskutiert Einschränkungen von

ppp

ppp

ppp

Meine zwei Cent Schlussfolgerung

$p$

$p$

$p$