Was Signifikanztests anbelangt (oder irgendetwas anderes, das im Wesentlichen dasselbe wie Signifikanztests tut ), habe ich lange geglaubt, dass der beste Ansatz in den meisten Situationen wahrscheinlich darin besteht, eine standardisierte Effektgröße mit einem Konfidenzintervall von 95% zu schätzen Effektgröße. Es gibt dort nichts wirklich Neues - mathematisch kann man zwischen ihnen hin- und herschieben - wenn der p-Wert für eine Null <.05 ist, dann liegt 0 außerhalb eines 95% -KI und umgekehrt. Der Vorteil davon ist meiner Meinung nach psychologischer Natur; Das bedeutet, dass wichtige Informationen vorhanden sind, die die Benutzer jedoch nicht sehen können, wenn nur p-Werte gemeldet werden. Es ist zum Beispiel leicht zu erkennen, dass ein Effekt sehr "bedeutend", aber lächerlich klein ist. oder "nicht signifikant", aber nur, weil die Fehlerbalken riesig sind, während der geschätzte Effekt mehr oder weniger dem entspricht, was Sie erwartet haben. Diese können mit Rohwerten und deren CIs gepaart werden.
In vielen Bereichen sind die Rohwerte von sich aus bedeutungsvoll, und ich erkenne, dass sich die Frage stellt, ob es sich noch lohnt, Effektgrößenmaße zu berechnen, da wir bereits Werte wie Mittelwerte und Steigungen haben. Ein Beispiel könnte sich mit verkümmertem Wachstum befassen. Wir wissen, was es für einen 20-jährigen weißen Mann bedeutet, 6 +/- 2 Zoll kürzer (dh 15 +/- 5 cm) zu sein, als sie es sonst tun würden. Warum also 5 ? Ich bin der Meinung, dass es immer noch sinnvoll ist, beides zu melden, und es können Funktionen geschrieben werden, um diese zu berechnen, so dass es nur sehr wenig zusätzliche Arbeit ist, aber ich erkenne, dass die Meinungen variieren werden. Ich behaupte jedenfalls, dass Punktschätzungen mit Konfidenzintervallen die p-Werte als ersten Teil meiner Antwort ersetzen. d=−1.6±.5
Auf der anderen Seite, denke ich, ist eine größere Frage, ob Signifikanztests das sind, was wir wirklich wollen. Ich denke, das eigentliche Problem ist, dass für die meisten Menschen, die Daten analysieren (dh für Praktiker und nicht für Statistiker), Signifikanztests zur Gesamtheit der Datenanalyse werden können. Es scheint mir, dass das Wichtigste darin besteht, prinzipiell darüber nachzudenken, was mit unseren Daten vor sich geht, und das Testen der Signifikanz von Nullhypothesen ist bestenfalls ein sehr kleiner Teil davon. Lassen Sie mich ein imaginäres Beispiel geben (ich gebe zu, dass dies eine Karikatur ist, befürchte aber leider, dass dies etwas plausibel ist):
Bob führt eine Studie durch und sammelt Daten über irgendetwas. Er geht davon aus, dass die Daten normal verteilt sind und sich um einen bestimmten Wert gruppieren, und beabsichtigt, einen T-Test mit einer Stichprobe durchzuführen, um festzustellen, ob sich seine Daten von einem festgelegten Wert "erheblich unterscheiden". Nachdem er seine Probe gesammelt hat, prüft er, ob seine Daten normal verteilt sind und stellt fest, dass dies nicht der Fall ist. Stattdessen haben sie keinen ausgeprägten Knoten in der Mitte, sondern sind über einen bestimmten Zeitraum relativ hoch und ziehen dann mit einem langen linken Schwanz ab. Bob macht sich Gedanken darüber, was er tun soll, um sicherzustellen, dass sein Test gültig ist. Am Ende führt er etwas aus (z. B. eine Transformation, einen nicht parametrischen Test usw.) und gibt dann eine Teststatistik und einen p-Wert aus.
Ich hoffe, das wird nicht so schlimm. Ich will niemanden verspotten, aber ich denke, dass so etwas gelegentlich passiert. Sollte dieses Szenario eintreten, können wir uns alle darauf einigen, dass es sich um eine schlechte Datenanalyse handelt. Das Problem ist jedoch nicht, dass die Teststatistik oder der p-Wert falsch sind. wir können davon ausgehen, dass die daten in dieser hinsicht richtig behandelt wurden. Ich würde argumentieren, dass das Problem darin besteht, dass Bob sich mit dem beschäftigt, was Cleveland "Rote-Daten-Analyse" nennt. Er scheint zu glauben, dass der einzige Punkt darin besteht, den richtigen p-Wert zu erhalten, und denkt nur sehr wenig über seine Daten nach, außer dass er dieses Ziel verfolgt. Er hätte sogar zu meinem obigen Vorschlag übergehen und eine standardisierte Effektgröße mit einem Konfidenzintervall von 95% angeben können, und es hätte nichts an dem geändert, was ich als größeres Problem betrachte (das habe ich damit gemeint, im Wesentlichen dasselbe zu tun) "auf andere Weise). In diesem speziellen Fall ist die Tatsache, dass die Daten nicht so aussahen, wie er es erwartet hatte (dh nicht normal waren), eine echte Information, die interessant istund sehr wahrscheinlich wichtig, aber diese Informationen werden im Wesentlichen einfach weggeworfen. Bob erkennt dies nicht, da der Schwerpunkt auf Signifikanztests liegt. Meiner Meinung nach ist dies das eigentliche Problem beim Testen der Signifikanz.
Lassen Sie mich einige andere Perspektiven ansprechen, die erwähnt wurden, und ich möchte ganz klar sagen, dass ich niemanden kritisiere.
- Es wird oft erwähnt, dass viele Menschen p-Werte nicht wirklich verstehen (z. B. wenn sie glauben, dass sie die Wahrscheinlichkeit haben, dass der Nullwert wahr ist) Geh weg. Ich glaube, dass die Menschen die Bayes'sche Datenanalyse auf eine ebenso inkonsequente und mechanische Weise angehen können. Ich denke jedoch, dass ein Missverständnis der Bedeutung von p-Werten weniger schädlich wäre, wenn niemand daran gedacht hätte, einen p-Wert zu erhalten.
- Das Vorhandensein von „Big Data“ hat im Allgemeinen nichts mit diesem Problem zu tun. Big Data macht nur deutlich, dass die Organisation der Datenanalyse nach "Signifikanz" kein hilfreicher Ansatz ist.
- Ich glaube nicht, dass das Problem darin besteht, dass die Hypothese getestet wird. Wenn die Leute nur sehen wollen, ob der geschätzte Wert außerhalb eines Intervalls liegt, anstatt einem Punktwert zu entsprechen, können viele der gleichen Probleme auftreten. (Auch hier möchte ich klarstellen, dass Sie nicht 'Bob' sind .)
- Vorab möchte ich erwähnen, dass mein eigener Vorschlag aus dem ersten Absatz das Problem nicht anspricht, wie ich versucht habe, darauf hinzuweisen.
Für mich ist dies die Kernfrage: Was wir wirklich wollen, ist eine prinzipielle Art, darüber nachzudenken, was passiert ist . Was das in einer bestimmten Situation bedeutet, wird nicht geschnitten und getrocknet. Wie das den Schülern einer Methodenklasse vermittelt wird, ist weder klar noch einfach. Signifikanztests haben viel Trägheit und Tradition. In einer Statistik-Klasse ist klar, was und wie unterrichtet werden muss. Für Studenten und Praktiker wird es möglich, ein konzeptionelles Schema für das Verständnis des Materials und eine Checkliste / ein Flussdiagramm (ich habe einige gesehen!) Für die Durchführung von Analysen zu entwickeln. Signifikanztests können sich natürlich zu einer Datenanalyse entwickeln, ohne dass jemand dumm, faul oder schlecht ist. Das ist das Problem.