Ziliak (2011) lehnt die Verwendung von p-Werten ab und nennt einige Alternativen. was sind Sie?

25

In einem kürzlich erschienenen Artikel mit dem Titel "Matrixx v. Siracusano und Student v. Fisher: Statistische Signifikanz in der Studie" (DOI: 10.1111 / j.1740-9713.2011.00511.x), in dem die Nachteile der Verwendung des p-Werts für statistische Inferenz erörtert wurden. Stephen T. Ziliak ist gegen die Verwendung von p-Werten. In den abschließenden Absätzen sagt er:

Die Daten sind die eine Sache, die wir bereits kennen und mit Sicherheit. Was wir eigentlich wissen wollen, ist etwas ganz anderes: Die Wahrscheinlichkeit, dass eine Hypothese wahr ist (oder zumindest praktisch nützlich ist), wenn man die uns vorliegenden Daten zugrunde legt. Wir wollen die Wahrscheinlichkeit wissen, dass sich die beiden Medikamente unterscheiden, und wie viel, wenn die verfügbaren Beweise vorliegen. Der Signifikanztest - der auf dem Irrtum der transponierten Bedingung, der Falle, in die Fisher geraten ist, basiert - sagt uns diese Wahrscheinlichkeit nicht und kann es auch nicht sagen. Die Power-Funktion, die Expected-Loss-Funktion und viele andere entscheidungstheoretische und bayesianische Methoden, die von Student und Jeffreys abstammen, sind jetzt weit verbreitet und kostenlos online verfügbar.

Was ist die Potenzfunktion, die Erwartungsverlustfunktion und "andere entscheidungs-theoretische und bayesianische Methoden"? Sind diese Methoden weit verbreitet? Sind sie in R verfügbar? Wie werden diese neuen vorgeschlagenen Methoden implementiert? Wie würde ich zum Beispiel diese Methoden verwenden, um meine Hypothese in einem Datensatz zu testen, für den ich sonst herkömmliche t-Tests mit zwei Stichproben und p-Werte verwenden würde?

— Ariel
quelle

Es gibt viele Artikel, die gegen die Verwendung von

Werten sprechen, aber es kommt wirklich auf den Kontext an, IMO. Können Sie weitere Informationen zu Ihren Interessen hinzufügen (vgl. Ihren letzten Satz)?

p

$p$

— Chl

2

Ich habe keinen Zugriff auf den Artikel, aber dieses Argument weist auf ein ziemlich fehlerhaftes Verständnis der Vorgänge hin. Trotz eines fehlerhaften Verständnisses ist die Schlussfolgerung, dass andere Statistiken eine Prüfung wert sind, vernünftig. Die erwartete Verlustfunktion ist einfach eine Schätzung des erwarteten Werts der Verlustfunktion (z. B. Fehlerquadrat, Logistik usw.).

— Iterator

Aufgrund eines ähnlichen Threads, der kürzlich veröffentlicht wurde , habe ich eine Frage zu diesem Thread auf Meta CV

— Silverfish

17

Dies klingt wie ein anderes striktes Papier von einer verwirrten Person. Fisher ist nicht in eine solche Falle geraten, obwohl es viele Statistikstudenten tun.

Das Testen von Hypothesen ist ein entscheidungswissenschaftliches Problem. Im Allgemeinen erhalten Sie einen Test mit einem bestimmten Schwellenwert zwischen den beiden Entscheidungen (Hypothese wahr oder Hypothese falsch). Wenn Sie eine Hypothese haben, die einem einzelnen Punkt entspricht, wie z. B. , können Sie die Wahrscheinlichkeit berechnen, dass sich Ihre Daten ergeben, wenn sie wahr sind. Aber was machst du, wenn es nicht nur ein Punkt ist? Sie erhalten eine Funktion von . Die Hypothese ist eine solche Hypothese, und Sie erhalten eine solche Funktion für die Wahrscheinlichkeit, Ihre beobachteten Daten zu erzeugen, vorausgesetzt, dass sie wahr sind. Diese Funktion ist die Potenzfunktion. Es ist sehr klassisch. Fisher wusste alles darüber. $\theta=0$ $\theta$ $\theta\not= 0$

Der erwartete Verlust ist ein Teil der grundlegenden Maschinerie der Entscheidungstheorie. Sie haben verschiedene Naturzustände und verschiedene mögliche Daten, die sich daraus ergeben, und einige mögliche Entscheidungen, die Sie treffen können, und Sie möchten eine gute Funktion von Daten zu Entscheidungen finden. Wie definierst du gut? In Anbetracht eines bestimmten Zustands der Natur, der den von Ihnen erhaltenen Daten zugrunde liegt, und der durch dieses Verfahren getroffenen Entscheidung, wie hoch ist Ihr erwarteter Verlust? Dies wird am einfachsten in geschäftlichen Problemen verstanden (wenn ich dies basierend auf den in den letzten drei Quartalen beobachteten Verkäufen tue, wie hoch ist der erwartete Geldverlust?).

Bayesianische Verfahren sind eine Teilmenge entscheidungswissenschaftlicher Verfahren. Der erwartete Verlust reicht nicht aus, um in allen bis auf triviale Fälle eindeutig beste Verfahren anzugeben. Wenn ein Verfahren sowohl in Zustand A als auch in Zustand B besser ist als ein anderes, werden Sie es offensichtlich vorziehen, aber wenn eines in Zustand A besser ist und eines in Zustand B besser, welches wählen Sie? Hier kommen Nebenideen wie Bayes-Verfahren, Minimaxität und Unparteilichkeit ins Spiel.

$t$ $t$ $\alpha$ $\beta$ $p$ $\alpha$ $p$

Ich bin auch ein wenig verwirrt darüber, warum er Student und Jeffreys zusammen nennt, wenn man bedenkt, dass Fisher für die weite Verbreitung der Arbeiten von Student verantwortlich war.

Grundsätzlich ist die blinde Verwendung von p-Werten eine schlechte Idee, und sie sind ein ziemlich subtiles Konzept, aber das macht sie nicht unbrauchbar. Sollten wir gegen ihren Missbrauch durch Forscher mit schlechtem mathematischen Hintergrund Einwände erheben? Aber denken wir daran, wie es ausgesehen hat, bevor Fisher versuchte, etwas für den Mann auf dem Feld zu destillieren.

— user873
quelle

5

+1 für die tatsächliche Beantwortung der Frage und ein zusätzliches (aber virtuelles) +1 für die Anfechtung des Angebots, was provokativ, aber problematisch ist. Ich sehe, dass Sie ein neuer Teilnehmer hier sind, aber bereits viele Antworten beigesteuert haben: Vielen Dank und herzlich willkommen (etwas verspätet) auf unserer Seite!

— Whuber

Vielen Dank für Ihre ausführliche Antwort. Es hilft, über alternative Strategien nachzudenken, die in diesem Artikel kritisch vorgeschlagen werden. Ich habe diese Frage gestellt, weil einige Kollegen in diesem Artikel angegeben haben, dass wir uns überhaupt nicht mit p-Werten befassen sollten, und ich habe festgestellt, dass ich nicht verstanden habe, was diese Alternativen tatsächlich bedeuten. Vielen Dank für Ihre Klarstellung!

— Ariel

@whuber Ich glaube nicht, dass dies die Frage überhaupt beantwortet. OP fragte nach den Alternativen, die Ziliak vorschlägt, und diese Antwort spricht sie nicht an. Zum Beispiel berührt Ziliaks Kritik der Signifikanz, warum Menschen 5% oder 1% Signifikanz verwenden. Es gibt wirklich keinen stichhaltigen Grund, und er konnte diese Werte bis zu Fischers Papieren zurückverfolgen. Es ist nur eine beliebige, bequeme Nummer. Im Gegensatz zu den "alternativen" Ansätzen, die auf finanziellen Vorteilen, dh Dollarwerten, beruhen.

— Aksakal

1

@Aksakal Ich glaube, dass ein wichtiger Beitrag zum Gespräch geleistet wird, indem Hypothesentests mit einem entscheidungswissenschaftlichen Problem in Verbindung gebracht werden und der p-Wert explizit mit einem erwarteten Risiko verknüpft wird (basierend auf einer 0-1-Verlustfunktion).

— whuber

6

Ich empfehle, sich auf Dinge wie Konfidenzintervalle und Modellprüfung zu konzentrieren. Andrew Gelman hat großartige Arbeit geleistet. Ich empfehle seine Lehrbücher, schaue mir aber auch die Sachen an, die er online gestellt hat, zB http://andrewgelman.com/2011/06/the_holes_in_my/

— Michael Bishop
quelle

5

Das ez- Paket bietet Wahrscheinlichkeitsverhältnisse, wenn Sie die ezMixed()Funktion für die Modellierung gemischter Effekte verwenden. Likelihood-Verhältnisse zielen darauf ab, Beweise für ein Phänomen zu quantifizieren, indem die Wahrscheinlichkeit (anhand der beobachteten Daten) zweier Modelle verglichen wird: eines "eingeschränkten" Modells, das den Einfluss des Phänomens auf Null beschränkt, und eines "uneingeschränkten" Modells, das einen Einfluss von ungleich Null zulässt das Phänomen. Nachdem die beobachteten Wahrscheinlichkeiten für die unterschiedliche Komplexität der Modelle korrigiert wurden (über Akaikes Informationskriterium, das asymptotisch der Kreuzvalidierung entspricht), quantifiziert das Verhältnis den Beweis für das Phänomen.

— Mike Lawrence
quelle

4

Alle diese Techniken sind in R in demselben Sinne verfügbar, wie die gesamte Algebra in Ihrem Bleistift verfügbar ist. Sogar p-Werte sind über viele verschiedene Funktionen in R verfügbar. Die Entscheidung, welche Funktion zum Abrufen eines p-Werts oder eines Bayes'schen Seitenzahns verwendet wird, ist komplexer als ein Zeiger auf eine einzelne Funktion oder ein einzelnes Paket.

Sobald Sie sich mit diesen Techniken vertraut gemacht haben und entscheiden, welche Frage Sie auch beantworten möchten, können Sie sehen (oder wir helfen Ihnen weiter), wie Sie dies mit R (oder anderen Tools) tun können. Nur zu sagen, dass Sie Ihre Verlustfunktion minimieren oder eine nachträgliche Verteilung erhalten möchten, ist ungefähr so nützlich wie das Antworten auf "Essen", wenn Sie gefragt werden, was Sie zum Abendessen essen möchten.

— Greg Snow
quelle