Ohne eine Vorstellung von Ihrer Verteilung und Ihrer Effektgröße, die Sie a priori nicht kennen, können Sie keine Stoppregel haben.
Auch ja, wir müssen uns auf die Effektgröße konzentrieren - und es wurde nie als richtig angesehen, nur p-Werte zu berücksichtigen, und wir sollten auf keinen Fall Tabellen oder Grafiken anzeigen, die p-Werte oder F-Werte anstelle der Effektgröße zeigen.
Es gibt Probleme mit traditionellen statistischen Hypothesen-Inferenztests (die laut Cohen seines Akronyms würdig sind, und Fisher und Pearson würden beide in den Gräbern umdrehen, wenn sie sehen würden, was heute in ihren gewaltsamen entgegengesetzten Namen getan wird).
Um N zu bestimmen, müssen Sie bereits eine Zielsignifikanz und einen Leistungsschwellenwert festgelegt sowie viele Annahmen zur Verteilung getroffen haben. Insbesondere müssen Sie auch die Effektgröße festgelegt haben, die Sie festlegen möchten. Indolering ist genau richtig, dass dies der Ausgangspunkt sein sollte - welche minimale Effektgröße wäre kosteneffektiv!
In der "Neuen Statistik" wird empfohlen, die Effektgrößen (gegebenenfalls als gepaarte Differenz) zusammen mit den zugehörigen Standardabweichungen oder -varianzen (da wir die Verteilung verstehen müssen) und den Standardabweichungen oder Konfidenzintervallen (wobei letztere bereits vorliegen) anzugeben Festlegen eines p-Werts und einer Entscheidung darüber, ob Sie eine Richtung oder eine Einzelwette vorhersagen). Das Festlegen eines minimalen Effekts eines bestimmten Vorzeichens mit einer wissenschaftlichen Vorhersage macht dies jedoch deutlich - obwohl die vorwissenschaftliche Vorgabe darin besteht, Versuch und Irrtum zu betreiben und nur nach Unterschieden zu suchen. Aber auch hier haben Sie Annahmen über die Normalität getroffen, wenn Sie diesen Weg gehen.
Ein anderer Ansatz besteht darin, Box-Plots als nicht parametrischen Ansatz zu verwenden, aber die Konventionen über Whisker und Ausreißer variieren stark und stammen selbst dann aus Verteilungsannahmen.
Das Stopp-Problem ist in der Tat nicht das Problem eines einzelnen Forschers oder des Nicht-Einstellens von N, sondern dass wir eine ganze Gemeinschaft von Tausenden von Forschern haben, wobei 1000 für das traditionelle 0,05-Niveau viel mehr als 1 / Alpha ist. Die Antwort wird derzeit vorgeschlagen, um die zusammenfassende Statistik (Mittelwert, stddev, stderr - oder entsprechende "nicht parametrische Versionen - Median usw. wie bei Boxplot) bereitzustellen, um die Metaanalyse zu erleichtern und kombinierte Ergebnisse aller Experimente zu präsentieren, ob sie auftreten ein bestimmtes Alpha-Niveau erreicht haben oder nicht.
Eng verwandt ist das ebenfalls schwierige Multiple-Testing-Problem, bei dem Experimente im Namen der Energieerhaltung zu simpel gehalten werden, während zur Analyse der Ergebnisse überkomplexe Methoden vorgeschlagen werden.
Ich denke, es kann noch kein Lehrbuchkapitel geben, das sich definitiv damit befasst, da wir noch keine Ahnung haben, was wir tun ...
Im Moment ist es wahrscheinlich der beste Ansatz, weiterhin die für das Problem am besten geeigneten herkömmlichen Statistiken zu verwenden und die zusammenfassenden Statistiken anzuzeigen - der Effekt und der Standardfehler und N sind die wichtigsten. Die Verwendung von Konfidenzintervallen entspricht im Wesentlichen dem entsprechenden T-Test, ermöglicht jedoch einen aussagekräftigeren Vergleich neuer Ergebnisse mit veröffentlichten Ergebnissen sowie ein Ethos, das die Reproduzierbarkeit fördert, und die Veröffentlichung reproduzierter Experimente und Metaanalysen.
In Bezug auf informationstheoretische oder bayesianische Ansätze verwenden sie unterschiedliche Werkzeuge und gehen von unterschiedlichen Annahmen aus, haben aber auch nicht alle Antworten und stehen letztendlich vor denselben oder noch schlimmeren Problemen, da die bayesianische Folgerung vom Definitiven abweicht antworten und nur Beweise für vermutete oder fehlende Prioritäten vorlegen.
Letztendlich hat maschinelles Lernen auch Ergebnisse, die für die Signifikanz berücksichtigt werden müssen - oft mit CIs oder T-Test, oft mit Grafiken, die hoffentlich nicht nur verglichen, sondern gepaart werden und angemessen kompensierte Versionen verwenden, wenn die Verteilungen nicht übereinstimmen. Es hat auch Kontroversen über Bootstrapping und Cross-Validation sowie Voreingenommenheit und Varianz. Das Schlimmste ist, dass es dazu neigt, unzählige alternative Modelle zu generieren und zu testen, indem es alle Algorithmen in einer der zahlreichen Toolboxen ausführlich parametrisiert und auf die durchdacht archivierten Datensätze angewendet wird, um ungezügelte Mehrfachtests zu ermöglichen. Am schlimmsten ist es jedoch, dass im dunklen Zeitalter immer noch die Genauigkeit oder, noch schlimmer, das F-Maß zur Bewertung herangezogen wird - und nicht die zufallsrichtigen Methoden.
Ich habe Dutzende von Artikeln zu diesen Themen gelesen, aber nichts völlig Überzeugendes gefunden - mit Ausnahme der negativen Umfrage- oder Metaanalysepapiere, die darauf hindeuten, dass die meisten Forscher die Statistiken in Bezug auf einen "Standard" nicht richtig handhaben und interpretieren ", alt oder neu. Leistung, mehrere Tests, Bemessung und vorzeitiges Anhalten, Interpretation von Standardfehlern und Konfidenzintervallen ... dies sind nur einige der Probleme.
Schieß mich bitte runter - ich möchte mich als falsch erweisen! Meiner Meinung nach gibt es viel Badewasser, aber wir haben das Baby noch nicht gefunden! Zu diesem Zeitpunkt scheint keine der extremen Ansichten oder Markenansätze eine vielversprechende Antwort zu sein, und diejenigen, die alles andere wegwerfen wollen, haben wahrscheinlich das Baby verloren.