Optionale Stoppregeln, die nicht in Lehrbüchern enthalten sind


16

Stoppregeln wirken sich auf die Beziehung zwischen P-Werten und den Fehlerraten aus, die mit Entscheidungen verbunden sind. Ein kürzlich veröffentlichter Aufsatz von Simmons et al. 2011 prägt den Begriff Forscherfreiheitsgrade , um eine Sammlung von Verhaltensweisen zu beschreiben, die sie für viele der Berichte in der psychologischen Literatur verantwortlich machen, die als nicht reproduzierbar befunden wurden.

Von diesen Verhaltensweisen interessieren mich derzeit optionale Abbruchregeln oder nicht deklarierte Zwischenanalysen. Ich beschreibe meinen Schülern ihre Auswirkungen auf die Fehlerquote, aber sie scheinen in den Lehrbüchern, die meine Schüler verwenden, nicht beschrieben zu sein (oder nicht) verwenden!). In der Hauptbuchhandlung meiner Universität gibt es vierzehn Statistiklehrbücher, die sich an Einsteiger verschiedener Disziplinen wie Biowissenschaften, Wirtschaft, Ingenieurwesen usw. richten. Stop-Regel '.

Gibt es ein Einführungslevel-Statistiklehrbuch, in dem das Problem der optionalen Stoppregeln erläutert wird?

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive Psychologie: Unbekannte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632


1
Verschwindet das Problem nicht, wenn Sie die Frequentist-Statistik ablegen und sich für IT- oder Bayes-Methoden entscheiden? (Oder sogar maschinelles Lernen, abhängig von der Größe Ihres Datensatzes) Das ist nicht leichtfertig - das inkompatible Mashup von Fisher und NP verursacht nichts als Probleme, selbst wenn es "korrekt" durchgeführt wird. In Zukunft wird es keine Frequentisten mehr geben.
letzte

1
Ja, das Problem wäre behoben, wenn keine Methoden verwendet würden, die dem Frequenzprinzip entsprechen sollten. Eine solche Zukunft kann jedoch nicht in dieser Welt kommen. Was ist es?
Michael Lew

2
@Michael: Zweifellos steht es (dh IT) für "informationstheoretisch".
Kardinal

Zu einem verwandten Thema: errorstatistics.com/2013/04/06/…
Fr.

2
Die Verwendung eines anderen theoretischen Rahmens wirft andere Probleme auf . Das Problem dabei ist, dass Sie alle Mathe als etwas anderes behandeln als nur eine Beschreibung der Welt. Frequentistische Statistiken sind eine sehr nützliche Art, die Welt zu beschreiben, Bayesian ist eine andere. Weder wird Sie mit einem Orakel der Wahrheit versorgen .
Indolering

Antworten:


2

Ohne eine Vorstellung von Ihrer Verteilung und Ihrer Effektgröße, die Sie a priori nicht kennen, können Sie keine Stoppregel haben.

Auch ja, wir müssen uns auf die Effektgröße konzentrieren - und es wurde nie als richtig angesehen, nur p-Werte zu berücksichtigen, und wir sollten auf keinen Fall Tabellen oder Grafiken anzeigen, die p-Werte oder F-Werte anstelle der Effektgröße zeigen.

Es gibt Probleme mit traditionellen statistischen Hypothesen-Inferenztests (die laut Cohen seines Akronyms würdig sind, und Fisher und Pearson würden beide in den Gräbern umdrehen, wenn sie sehen würden, was heute in ihren gewaltsamen entgegengesetzten Namen getan wird).

Um N zu bestimmen, müssen Sie bereits eine Zielsignifikanz und einen Leistungsschwellenwert festgelegt sowie viele Annahmen zur Verteilung getroffen haben. Insbesondere müssen Sie auch die Effektgröße festgelegt haben, die Sie festlegen möchten. Indolering ist genau richtig, dass dies der Ausgangspunkt sein sollte - welche minimale Effektgröße wäre kosteneffektiv!

In der "Neuen Statistik" wird empfohlen, die Effektgrößen (gegebenenfalls als gepaarte Differenz) zusammen mit den zugehörigen Standardabweichungen oder -varianzen (da wir die Verteilung verstehen müssen) und den Standardabweichungen oder Konfidenzintervallen (wobei letztere bereits vorliegen) anzugeben Festlegen eines p-Werts und einer Entscheidung darüber, ob Sie eine Richtung oder eine Einzelwette vorhersagen). Das Festlegen eines minimalen Effekts eines bestimmten Vorzeichens mit einer wissenschaftlichen Vorhersage macht dies jedoch deutlich - obwohl die vorwissenschaftliche Vorgabe darin besteht, Versuch und Irrtum zu betreiben und nur nach Unterschieden zu suchen. Aber auch hier haben Sie Annahmen über die Normalität getroffen, wenn Sie diesen Weg gehen.

Ein anderer Ansatz besteht darin, Box-Plots als nicht parametrischen Ansatz zu verwenden, aber die Konventionen über Whisker und Ausreißer variieren stark und stammen selbst dann aus Verteilungsannahmen.

Das Stopp-Problem ist in der Tat nicht das Problem eines einzelnen Forschers oder des Nicht-Einstellens von N, sondern dass wir eine ganze Gemeinschaft von Tausenden von Forschern haben, wobei 1000 für das traditionelle 0,05-Niveau viel mehr als 1 / Alpha ist. Die Antwort wird derzeit vorgeschlagen, um die zusammenfassende Statistik (Mittelwert, stddev, stderr - oder entsprechende "nicht parametrische Versionen - Median usw. wie bei Boxplot) bereitzustellen, um die Metaanalyse zu erleichtern und kombinierte Ergebnisse aller Experimente zu präsentieren, ob sie auftreten ein bestimmtes Alpha-Niveau erreicht haben oder nicht.

Eng verwandt ist das ebenfalls schwierige Multiple-Testing-Problem, bei dem Experimente im Namen der Energieerhaltung zu simpel gehalten werden, während zur Analyse der Ergebnisse überkomplexe Methoden vorgeschlagen werden.

Ich denke, es kann noch kein Lehrbuchkapitel geben, das sich definitiv damit befasst, da wir noch keine Ahnung haben, was wir tun ...

Im Moment ist es wahrscheinlich der beste Ansatz, weiterhin die für das Problem am besten geeigneten herkömmlichen Statistiken zu verwenden und die zusammenfassenden Statistiken anzuzeigen - der Effekt und der Standardfehler und N sind die wichtigsten. Die Verwendung von Konfidenzintervallen entspricht im Wesentlichen dem entsprechenden T-Test, ermöglicht jedoch einen aussagekräftigeren Vergleich neuer Ergebnisse mit veröffentlichten Ergebnissen sowie ein Ethos, das die Reproduzierbarkeit fördert, und die Veröffentlichung reproduzierter Experimente und Metaanalysen.

In Bezug auf informationstheoretische oder bayesianische Ansätze verwenden sie unterschiedliche Werkzeuge und gehen von unterschiedlichen Annahmen aus, haben aber auch nicht alle Antworten und stehen letztendlich vor denselben oder noch schlimmeren Problemen, da die bayesianische Folgerung vom Definitiven abweicht antworten und nur Beweise für vermutete oder fehlende Prioritäten vorlegen.

Letztendlich hat maschinelles Lernen auch Ergebnisse, die für die Signifikanz berücksichtigt werden müssen - oft mit CIs oder T-Test, oft mit Grafiken, die hoffentlich nicht nur verglichen, sondern gepaart werden und angemessen kompensierte Versionen verwenden, wenn die Verteilungen nicht übereinstimmen. Es hat auch Kontroversen über Bootstrapping und Cross-Validation sowie Voreingenommenheit und Varianz. Das Schlimmste ist, dass es dazu neigt, unzählige alternative Modelle zu generieren und zu testen, indem es alle Algorithmen in einer der zahlreichen Toolboxen ausführlich parametrisiert und auf die durchdacht archivierten Datensätze angewendet wird, um ungezügelte Mehrfachtests zu ermöglichen. Am schlimmsten ist es jedoch, dass im dunklen Zeitalter immer noch die Genauigkeit oder, noch schlimmer, das F-Maß zur Bewertung herangezogen wird - und nicht die zufallsrichtigen Methoden.

Ich habe Dutzende von Artikeln zu diesen Themen gelesen, aber nichts völlig Überzeugendes gefunden - mit Ausnahme der negativen Umfrage- oder Metaanalysepapiere, die darauf hindeuten, dass die meisten Forscher die Statistiken in Bezug auf einen "Standard" nicht richtig handhaben und interpretieren ", alt oder neu. Leistung, mehrere Tests, Bemessung und vorzeitiges Anhalten, Interpretation von Standardfehlern und Konfidenzintervallen ... dies sind nur einige der Probleme.

Schieß mich bitte runter - ich möchte mich als falsch erweisen! Meiner Meinung nach gibt es viel Badewasser, aber wir haben das Baby noch nicht gefunden! Zu diesem Zeitpunkt scheint keine der extremen Ansichten oder Markenansätze eine vielversprechende Antwort zu sein, und diejenigen, die alles andere wegwerfen wollen, haben wahrscheinlich das Baby verloren.


Es geht nicht darum, dich zu erschießen, ich glaube nicht, dass es eine Lösung für diese Probleme geben kann. Wir sind Menschen, die Muster in der Welt erkennen. Wir müssen uns mit konvergierender Gültigkeit abfinden. Nach seinem schlechten Versuch, die Existenz eines Gottes zu beweisen, erlangte Descartes eine konvergente Gültigkeit. Manchmal ist es da, manchmal nicht, aber meistens stoßen wir nur auf unsere unendlich kleinen kognitiven Rechenfähigkeiten.
Indolering

1

Ich glaube nicht , dass optionale „Stoppregeln“ ist ein technisch in Bezug auf die optimale Einstellung Begriff. Ich bezweifle jedoch, dass Sie in den Lehrbüchern zur Psychologiestatistik auf Intro-Ebene eine ausführliche Diskussion zu diesem Thema finden werden.

Die zynische Begründung dafür ist, dass alle sozialwissenschaftlichen Studenten schwache mathematische Fähigkeiten haben. Die bessere Antwort, IMHO, ist, dass einfache t-Tests für die meisten sozialwissenschaftlichen Experimente nicht geeignet sind. Man muss sich die Stärke des Effekts ansehen und herausfinden, ob dies die Unterschiede zwischen den Gruppen auflöst. Ersteres kann anzeigen, dass Letzteres möglich ist , aber das ist alles, was es tun kann.

Die Maße der Sozialausgaben, der staatlichen Regulierung und der Urbanisierung haben alle statistisch signifikante Beziehungen zu den Maßen des religiösen Verhaltens. Wenn Sie jedoch nur den p-Wert angeben, wird der Test in einen Alles-oder-Nichts-Kausalzusammenhang gesetzt. Siehe folgendes:

Bildbeschreibung hier eingeben

Die Ergebnisse sowohl der Sozialausgaben als auch der Urbanisierung weisen statistisch signifikante p-Werte auf, die Sozialausgaben korrelieren jedoch viel stärker. Diese Sozialausgaben stehen in einem so starken Verhältnis zu anderen Maßstäben der Religiosität ( nichtreligiöse Rate sowie religiöser Komfort ), für die die Urbanisierung nicht einmal einen p-Wert von erreicht < .10, was darauf hindeutet, dass die Urbanisierung keinen Einfluss auf die allgemeinen religiösen Überzeugungen hat. Beachten Sie jedoch, dass selbst die Sozialausgaben Irland oder die Philippinen nicht erklären, was zeigt, dass einige andere Effekte vergleichsweise stärker sind als die der Sozialausgaben .

Das Verlassen auf "Stoppregeln" kann zu Fehlalarmen führen, insbesondere bei den kleinen Stichprobengrößen der Psychologie. Die Psychologie als Fachgebiet wird durch diese Art statistischer Spielereien wirklich gebremst. Es ist jedoch auch ziemlich dumm, all unseren Glauben auf einen beliebigen p-Wert zu setzen. Selbst wenn wir alle unsere Stichprobengrößen und Hypothesenaussagen vor Durchführung des Experiments an ein Journal senden würden, würden wir immer noch auf falsch positive Ergebnisse stoßen, da die Wissenschaft gemeinsam nach statistischer Signifikanz trollt.

Das Richtige ist, Data Mining nicht zu stoppen, sondern die Ergebnisse in Bezug auf ihre Auswirkungen zu beschreiben . Theorien werden nicht nur anhand der Genauigkeit ihrer Vorhersagen beurteilt, sondern auch anhand des Nutzens dieser Vorhersagen. Egal wie gut die Forschungsmethode ist, ein Medikament, das die Erkältungssymptome um 1% verbessert, ist die Kosten für die Verpackung in einer Kapsel nicht wert.

Update Um es klar auszudrücken, stimme ich voll und ganz zu, dass Sozialwissenschaftler auf einem höheren Niveau gehalten werden sollten: Wir müssen die Ausbildung verbessern, Sozialwissenschaftlern bessere Werkzeuge an die Hand geben und das Signifikanzniveau auf 3-Sigma erhöhen. Ich versuche, einen unterrepräsentierten Punkt hervorzuheben: Die überwiegende Mehrheit der Psychologiestudien ist wertlos, weil die Effektgröße so gering ist.

Aber mit Amazon Turk kann ich das Ausführen von 10 Parralel-Studien richtig kompensieren und das 3-Sigma-Konfidenzniveau sehr billig aufrechterhalten. Wenn die Effektstärke jedoch gering ist, besteht eine erhebliche Gefahr für die externe Gültigkeit. Die Auswirkung der Manipulation kann auf eine Nachricht oder die Reihenfolge der Fragen zurückzuführen sein, oder ...

Ich habe keine Zeit für einen Aufsatz, aber die Qualitätsprobleme in den Sozialwissenschaften gehen weit über beschissene statistische Methoden hinaus.


Ich verstehe, dass es hier eine gewisse Verschmelzung von soziologischen (normalerweise nicht experimentellen) und klinischen Studien gibt. Ihr erster Satz macht jedoch keinen Sinn: Das Beenden von Regeln ist ein riesiges Forschungsgebiet in klinischen Studien. Der Grund dafür ist, dass mehrere, nacheinander getestete, korrelierte Hypothesen Teil eines vorgegebenen Analyseplans sind. Die Verbindung in der OP-Frage ist jedoch keine Frage der schlechten Mathematik, sondern eine Frage der schlechten Wissenschaft. Es ist eine schlechte Wissenschaft, mehrere statistische Tests durchzuführen, um die richtige Analyse zu "erproben" und anzuhalten, wenn sich herausstellt, dass sie von Bedeutung ist, unabhängig davon, wie Sie sie schneiden.
AdamO

@AdamO Ich stimme zu! Als ich das schrieb, war ich ein Student, der versuchte, Data-Mining-Methoden anzuwenden, und als ich mich vergewisserte, dass ich alles richtig machte (was ich auch war), waren die ersten Reaktionen von Professoren und Statistikern ... naiv. Ironischerweise besteht das Standardverfahren für sozialwissenschaftliche Labors darin, Pilotstudien durchzuführen, bis sie etwas Interessantes finden. Ich habe das Gleiche getan, aber tatsächlich versucht, es zu kompensieren: p
Indolering

0

In dem Artikel, den Sie zitieren, wird das Stoppen von Regeln nicht erwähnt und scheint das vorliegende Problem kaum zu berühren. Ihr einziger, sehr geringer Zusammenhang ist der der Mehrfachtests, bei denen es sich nicht um ein wissenschaftliches, sondern um ein statistisches Konzept handelt.

In der Literatur zu klinischen Studien werden Sie feststellen, dass die Abbruchregeln streng sind und explizite Informationen zu den Bedingungen enthalten, unter denen eine Studie "aussieht": basierend auf dem Kalenderjahr oder der Personenjahreseinschreibung, der Einstellung eines Alpha-Levels und Schränkt auch die Wirkung von "wirksamen" gegenüber "schädlichen" Behandlungen ein. In der Tat sollten wir uns auf die strenge Durchführung solcher Studien als ein Beispiel für eine gut gemachte Wissenschaft konzentrieren . Die FDA wird sogar so weit gehen zu sagen, dass nach einem signifikanten Befund der Wirksamkeit, der von dem vorher festgelegten abweicht, ein zweiter Versuch durchgeführt werden muss, um diese Befunde zu validieren. Dies ist nach wie vor ein so großes Problem, dass Thomas Flemming empfiehlt, dass alle klinischen Studien dies erfordernvalidiert mit einer vollständig unabhängigen zweiten Bestätigungsstudie , die von getrennten Stellen durchgeführt wurde. So schlimm ist das Problem der falsch-positiven Fehler bei der Betrachtung des Lebens und der medizinischen Versorgung.

Mit scheinbar harmlosem Versehen haben andere Bereiche der Wissenschaft die schlechte Ethik in der Forschung aufrechterhalten. In der Tat beeinflussen die Sozialwissenschaften nicht die Behandlungen, die die Menschen erhalten, sie behandeln sie in abstrakten und konzeptuellen Modellen, die nur unser Verständnis des Zusammenspiels von Theorie und Beobachtung verbessern. Jedem Konsumenten der Sozialwissenschaften, ob Laien oder Wissenschaftler, werden jedoch häufig widersprüchliche Erkenntnisse vorgelegt: Schokolade ist gut für Sie, Schokolade ist schlecht für Sie (Schokolade ist übrigens gut für Sie, Zucker und Fett)in Schokolade ist schlecht für dich), Sex ist gut für dich, die Ehe macht dich traurig / die Ehe macht dich glücklich. Das Feld ist mit schlechter Wissenschaft nachlässig. Sogar ich habe mich schuldig gemacht, an Analysen zu arbeiten, bei denen ich mit der stark kausalen Sprache unzufrieden war, die damals mit starken Empfehlungen zu Politik und Bundesunterstützung verbunden war, völlig ungerechtfertigt und dennoch veröffentlicht wurde.

Simmons Artikel beschreibt auf effektive Weise, wie die Offenlegung dazu beitragen würde, die Art der "Abkürzungen", die Forscher in den Sozialstudien machen, deutlich zu machen. Simmons gibt in Tabelle 1 ein Beispiel dafür, wie das Ausbaggern von Daten die Rate falsch positiver Fehler auf eine Weise dramatisch erhöht, die für einen unethischen Wissenschaftler typisch ist, der "nach Erkenntnissen fischt". Die Zusammenfassung der Ergebnisse in Tabelle 2 beschreibt die häufig ausgelassenen Aspekte von Artikeln, die dazu beitragen würden, das Verständnis dafür zu verbessern, wie möglicherweise mehr als eine Analyse durchgeführt wurde.

Zusammenfassend wäre das Stoppen von Regeln nur mit einer vorher festgelegten Hypothese angebracht: Diese sind ethisch einwandfrei und erfordern statistische Methoden. Der Artikel von Simmons gibt zu, dass ein Großteil der Forschung dies nicht einmal gewährt, und es ist ethisch nicht vertretbar, aber die statistische Sprache ist zwingend, warum genau es falsch ist.


Ich verstehe nicht, warum Sie sagen würden, dass das zitierte Papier wenig Einfluss auf das vorliegende Problem hat. Es enthält einen Abschnitt mit den Überschriften "Ein genauerer Blick auf die Flexibilität der Stichprobengröße", in dem es um das optionale Anhalten geht. Schauen Sie noch einmal vorbei.
Michael Lew

@MichaelLew, um die Antwort zusammenzufassen: Das Stoppen von Regeln hat mit klinischen Studien, Rekrutierung und Nachverfolgung zu tun, aber das Testen einer einzelnen festgelegten Hypothese ist eine akzeptable Praxis in der Forschung für FDA-Geräte und Therapeutika. Simmons 'Artikel befasst sich mit Forschungsethik, Kriterien und P-Hacking in der sozialmedizinischen Forschung und Wissenschaft. Können Sie genauer beschreiben, wie Sie die Beziehung sehen? Vielleicht können Sie Ihren Beitrag bearbeiten, um Begriffe zu definieren und Verweise auf andere Literatur zu liefern, insbesondere in Bezug auf "Abbruchregeln", die AFAIK außerhalb von klinischen Studien nicht gibt.
AdamO

Ich denke auch nicht, dass Ihre Charakterisierung "andere Bereiche der Wissenschaft haben schlechte Ethik in der Forschung verewigt" fair oder hilfreich ist. Der Punkt meiner ursprünglichen Frage ist, dass es anscheinend keinen Grund gibt, warum die Benutzer von Teilzeitstatistiken sich der potenziellen Probleme bewusst wären, die sich aus nicht angemeldeten Zwischenanalysen ergeben. Es ist unfair, Unwissenheit als unethisch zu bezeichnen.
Michael Lew

@MichaelWas definieren Sie als "Zwischenanalyse"?
AdamO

Adam, ich glaube nicht, dass Sie Recht haben, wenn Sie sagen, dass "Stoppregeln außerhalb von klinischen Studien nicht existieren". Sie werden außerhalb von klinischen Studien vielleicht nicht oft erwähnt (siehe meine ursprüngliche Frage), aber sie existieren für jedes Experiment. Selbst bei einem Test mit festem Stichprobenumfang gilt die Stopp-Regel "Weiter, bis der Stichprobenumfang erreicht ist".
Michael Lew
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.