Ist dies die Lösung für das p-Wert-Problem?


67

Im Februar 2016 veröffentlichte die American Statistical Association eine formelle Erklärung zur statistischen Signifikanz und zu den p-Werten. In unserem Thread werden diese Themen ausführlich behandelt. Es hat sich jedoch bisher keine Autorität herauskristallisiert, um eine allgemein anerkannte wirksame Alternative anzubieten. Die American Statistical Society (ASS) hat ihre Antwort veröffentlicht, p-Werte: Was kommt als nächstes?

"Der p-Wert ist nicht gut für viel."

Wir glauben, dass die ASA nicht weit genug gegangen ist. Es ist Zeit zuzugeben, dass die Ära der p-Werte vorbei ist. Statistiker haben sie erfolgreich eingesetzt, um Studenten, Trickwissenschaftler und Narrenredakteure überall zu verblüffen, aber die Welt beginnt, diese List zu durchschauen. Wir müssen den Versuch der Statistiker, die Entscheidungsfindung zu kontrollieren, zu Beginn des 20. Jahrhunderts aufgeben. Wir müssen zu dem zurückkehren, was tatsächlich funktioniert.

Der offizielle ASS-Vorschlag lautet:

Anstelle von p-Werten befürwortet der ASS das STOP (SeaT-Of-Pants-Verfahren). Diese altehrwürdige und erprobte Methode wurde von den alten Griechen, Renaissance-Männern und allen Wissenschaftlern angewendet, bis Ronald Fisher kam und Dinge ruinierte. Der STOP ist einfach, direkt, datengesteuert und maßgeblich. Zu diesem Zweck überprüft eine Autoritätsperson (vorzugsweise ein älterer Mann) die Daten und entscheidet, ob sie mit seiner Meinung übereinstimmt. Wenn er entscheidet, dass dies der Fall ist, ist das Ergebnis "signifikant". Andernfalls ist dies nicht der Fall und jeder muss das Ganze vergessen.

Prinzipien

Die Antwort geht auf jedes der sechs Prinzipien der ASA ein.

  1. Der STOP kann anzeigen, wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind.

    Wir mögen diesen Satz, weil es eine so ausgefallene Art ist zu sagen, dass STOP jede Frage mit Ja oder Nein beantwortet. Anders als bei p-Werten oder anderen statistischen Verfahren besteht kein Zweifel. Dies ist die perfekte Antwort für diejenigen, die sagen: „Wir brauchen keine Nullhypothese! Was zum *?! @ Ist das überhaupt? Niemand konnte jemals herausfinden, was es sein sollte. “

  2. Der STOP misst nicht die Wahrscheinlichkeit, dass eine Hypothese wahr ist: Er entscheidet tatsächlich, ob sie wahr ist oder nicht.

    Wahrscheinlichkeiten verwirren jeden. Indem die Wahrscheinlichkeit aus dem Bild gestrichen wird, macht der STOP jahrelanges Studium überflüssig. Jetzt kann jeder (der alt und männlich genug ist) statistische Analysen durchführen, ohne den Schmerz und die Qual eines einzigen statistischen Vortrags oder der Ausführung einer geheimen Software, die unverständliche Ergebnisse liefert.

  3. Wissenschaftliche Schlussfolgerungen und geschäftliche oder politische Entscheidungen können auf dem gesunden Menschenverstand und tatsächlichen Autoritätspersonen beruhen.

    Wichtige Entscheidungen wurden sowieso immer von den Behörden getroffen. Lassen Sie es uns einfach zugeben und die Zwischenhändler ausschalten. Mit der STOP-Taste können Statistiker das tun, wofür sie am besten geeignet sind: Zahlen verwenden, um die Wahrheit zu verschleiern und die Vorlieben der Machthaber zu bereinigen.

  4. Der richtige Rückschluss erfordert eine vollständige Berichterstattung und Transparenz.

    Der STOP ist das transparenteste und offensichtlichste statistische Verfahren, das jemals erfunden wurde: Sie sehen sich die Daten an und entscheiden. Es eliminiert all diese verwirrenden Z-Tests, T-Tests, Chi-Quadrat-Tests und Alphabet-Suppen-Verfahren (ANOVA! GLM! MLE!), Die von Menschen verwendet werden, um die Tatsache zu verbergen, dass sie keine Ahnung haben, was die Daten bedeuten.

  5. Der STOP misst die Wichtigkeit des Ergebnisses.

    Dies ist selbstverständlich: Wenn eine Person in der Behörde den STOP-Befehl verwendet, muss das Ergebnis wichtig sein.

  6. An sich liefert der STOP eine gute Evidenz für ein Modell oder eine Hypothese.

    Wir möchten doch keine Autorität anfechten, oder? Forscher und Entscheidungsträger werden erkennen, dass der STOP alle Informationen liefert, die sie wissen müssen. Aus diesen Gründen kann die Datenanalyse mit dem STOP enden; Alternative Ansätze wie p-Werte, maschinelles Lernen oder Astrologie sind nicht erforderlich.

Andere Ansätze

Einige Statistiker bevorzugen sogenannte "Bayesian" -Methoden, bei denen ein obskurer Satz, der posthum von einem Geistlichen aus dem 18. Jahrhundert veröffentlicht wurde, sinnlos angewendet wird, um jedes Problem zu lösen. Die bekanntesten Befürworter geben frei zu, dass diese Methoden „subjektiv“ sind. Wenn wir subjektive Methoden anwenden, ist das Ergebnis natürlich umso besser, je zuverlässiger und sachkundiger der Entscheidungsträger ist. Der STOPP stellt sich dabei als logische Grenze aller Bayes-Methoden heraus. Warum sollte man sich die Mühe machen, diese schrecklichen Berechnungen durchzuführen und so viel Computerzeit zu verbrauchen, wenn man dem Verantwortlichen die Daten nur zeigen und ihn nach seiner Meinung fragen kann? Ende der Geschichte.

Kürzlich ist eine andere Gemeinschaft entstanden, um das Priestertum der Statistiker herauszufordern. Sie bezeichnen sich selbst als "Maschinenlerner" und "Datenwissenschaftler", aber sie sind wirklich nur Hacker, die nach einem höheren Status suchen. Es ist die offizielle Position des ASS, dass diese Jungs ihre eigene professionelle Organisation gründen sollten, wenn sie wollen, dass die Leute sie ernst nehmen.


Die Frage

Ist dies die Antwort auf die Probleme, die die ASA beim Testen von p-Werten und Nullhypothesen festgestellt hat? Kann es das Bayesianische und das Frequentistische Paradigma (wie implizit in der Antwort behauptet) wirklich vereinen?


11
"Donald Trump für den obersten STOP ASS-Richter: Machen Sie die Statistiken wieder großartig!"
Alex R.

14
Natürlich ist STOP ein suboptimaler Vorgang. Ich bin überrascht, dass dies einer so angesehenen Organisation von Wissenschaftlern wie der ASS entgangen ist. Warum also Zeit damit verschwenden, sich die Daten überhaupt anzusehen ? Geben Sie einfach Ihre Ja / Nein-Antwort. Diese Methode wird derzeit bereits in großem Umfang eingesetzt. Fallstudien sind zahlreich, insbesondere in den Vereinigten Staaten während der Jahre, die durch den 4.
Kardinal

4
Ich denke, Unternehmen könnten von der Einführung dieser Methoden auch enorm profitieren, da sie nicht mehr die hohen Kosten für die Einstellung von Mitarbeitern zur Analyse ihrer Daten tragen müssten.
Dsaxton

4
@henry Als ob das [1. April] -Tag uns das nicht gesagt hätte?
Glen_b

9
@ Henry Ernst? Können Sie uns eine gefälschte Organisation zeigen, die über eine Viertelmillion Treffer erzielt, wenn Sie den Namen von Google eingeben?
Whuber

Antworten:


18

Ich habe mich für meinen eigenen neuen Ansatz zur statistischen Entscheidungsfindung mit dem Namen RADD ausgesprochen: R oll A D amn D ie. Es werden auch alle wichtigen Punkte angesprochen.

1) RADD kann angeben, wie kompatibel die Daten mit einem bestimmten statistischen Modell sind.

Wenn Sie eine höhere Zahl würfeln, ist der Beweis eindeutig mehr für Ihr Modell! Ein zusätzlicher Vorteil ist, dass wir einen Würfel mit mehr Seiten werfen können, wenn wir noch mehr Selbstvertrauen wünschen. Sie können sogar 100 einseitige Würfel finden, wenn Sie genug suchen!

2) RADD kann entscheiden, ob eine Hypothese wahr ist oder nicht.

Sie müssen nur einen 2-seitigen Würfel werfen, dh eine Münze werfen.

3) RADD kann verwendet werden, um geschäftliche oder politische Entscheidungen zu treffen

Bring ein paar politische Entscheidungsträger in einen Raum und lass sie alle würfeln! Höchste Gewinne!

4) RADD ist transparent.

Das Ergebnis kann aufgezeichnet und der Würfel selbst für die weitere Forschung aufbewahrt werden *

5) RADD misst die Wichtigkeit des Ergebnisses.

Ein höheres Rollen bedeutet natürlich, dass ein sehr wichtiges Ereignis eingetreten ist.

6) RADD liefert ein gutes Maß an Beweisen.

Haben wir nicht gesagt, dass höhere Rollen besser sind?

Also nein, STOP ist nicht die Antwort. Die Antwort lautet RADD.


7
Nicht zu vergessen, es kann eine Fehlerkontrolle vom Typ I sicherstellen (auf jedem gewünschten Niveau bei einem ausreichend seitigen Würfel), indem es z. B. eine Nullhypothese nur ablehnt, wenn eine der 5 Seiten mit der höchsten Anzahl von 100 seitigen Würfeln auftaucht, um dies zu erreichen eine 5% Typ I Fehlerrate.
Björn


17

Ich muss aus meiner Erfahrung sagen, dass in der Geschäftswelt STOP das Standardentscheidungskriterium ist, das vorgezogen wirdp-Werte und andere frequentistische oder bayesianische Methoden. Aus betriebswirtschaftlicher Sicht liefert STOP einfache und eindeutige Antworten, was es zuverlässiger macht als unsichere "probabilistische" Methoden. Darüber hinaus ist es in den allermeisten Fällen einfacher zu implementieren und sich an veränderte Gegebenheiten anzupassen als bei anderen Methoden. Die Ja / Nein-Entscheidungen sind für das mittlere und obere Management überzeugender. Die "STOP-Meldungen" sind in den meisten Fällen kürzer und übersichtlicher als die datenbasierten. Durch diese Methode kann Ihr Arbeitgeber außerdem die Kosten für Data Scientists und SAS-Lizenzen senken. Ich würde sagen, dass das einzige Problem mit STOP darin besteht, dass es schwieriger ist, eine PowerPoint-Präsentation mit STOP-Ergebnissen zu erstellen, aber dies ist ein sich dynamisch entwickelndes Gebiet, sodass in Zukunft möglicherweise bessere Visualisierungsmethoden vorgeschlagen werden.


6
Sobald die PowerPoint-Folien mit der Schlussfolgerung eingewiesen wurden, ist es zu spät, um sie zu ändern. Es gibt also zwei Möglichkeiten, um die Analyse an die Schlussfolgerung anzupassen oder um überhaupt keine Analyse durchzuführen.
Mark L. Stone

12
@ MarkL.Stone Sicher! Ich persönlich mag die Idee, Diagramme für die Präsentation zu erstellen, bevor die Daten angezeigt werden.
Tim

15

Diese feine Ergänzung zur p-Wert-Debatte, die meiner Meinung nach interessant, aber auch etwas veraltet ist, erinnert mich an ein einzigartiges Papier, das vor einigen Jahren in der Weihnachtsausgabe des British Medical Journal (BMJ) veröffentlicht wurde und zu jeder Jahreszeit echte, aber witzige Forschungsergebnisse veröffentlicht Artikel. Insbesondere wurden in dieser Arbeit von Isaacs und Fitzgerald sieben Schlüsselalternativen zur evidenzbasierten Medizin (dh die auf tatsächlichen klinischen und statistischen Beweisen basierende medizinische Praxis) hervorgehoben:

  • Medizin auf Eminenzbasis
  • Vehemenz-basierte Medizin
  • Beredsame Medizin
  • Vorsehungsbasierte Medizin
  • Diffidenzbasierte Medizin
  • Nervosität basierte Medizin
  • Vertrauensbasierte Medizin

Am interessantesten ist, dass Sie sich die Spalten ansehen, in denen die Messgeräte und Maßeinheiten für die oben genannten Elemente hervorgehoben sind (z. B. Audiometer und Dezibel für Medizin auf der Basis von Vehemenz!).


4
+1. Vielen Dank für einen großartigen Beitrag, ganz im Sinne der Frage. (1) Nur um zu verdeutlichen: Ist es die p-Wert-Debatte, die Sie für "abgestanden" halten, oder nur diese Frage? (2) Würden Sie wissen, wo Sie Referenz (6), "J Exponential Salaries", finden können? Ich bin sicher, es hätte viele begeisterte Leser, wenn es besser bekannt wäre.
Whuber

5
(1) Ihr Beitrag ist "frisch zertifiziert" (um rottentomatoes.com zu zitieren). Umgekehrt finde ich diese Betonung der Einschränkungen von p-Werten etwas abgestanden. In einer Zeit des maschinellen Lernens, von Big Data und mangelnder wissenschaftlicher Kompetenz in der Öffentlichkeit scheint die Haltung der ASA ein bisschen masochistisch. (2) Ich glaube, Sie finden diesen Artikel in derselben Zeitschrift, in der sie die randomisierte Studie veröffentlicht haben, die in diesem anderen BMJ-Weihnachtsstück empfohlen wird: bmj.com/content/327/7429/1459 .
Joe_74

Ich vergesse immer, ob es die vertrauensbasierte Medizin ist, die Dunning-Kruger-basierte Inferenz verwendet?
Alexis
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.