Was bedeutet es für eine Studie, überlastet zu sein?


11

Was bedeutet es für eine Studie, überlastet zu sein?

Mein Eindruck ist, dass Ihre Stichproben so groß sind, dass Sie winzige Effektgrößen erkennen können. Diese Effektgrößen sind möglicherweise so klein, dass sie eher auf geringfügige Verzerrungen im Stichprobenprozess zurückzuführen sind als auf einen (nicht unbedingt direkten) Kausalzusammenhang zwischen den Variablen.

Ist das die richtige Intuition? Wenn ja, sehe ich nicht, was die große Sache ist, solange die Ergebnisse in diesem Licht interpretiert werden und Sie manuell prüfen, ob die geschätzte Effektgröße groß genug ist, um "sinnvoll" zu sein oder nicht.

Vermisse ich etwas Gibt es eine bessere Empfehlung, was in diesem Szenario zu tun ist?


Klingt genau so, wie ich diesen Begriff intuitiv verstehe.
Henrik

Antworten:


11

Ich denke, dass Ihre Interpretation falsch ist.

Sie sagen: "Diese Effektgrößen sind möglicherweise so klein, dass sie eher auf geringfügige Verzerrungen im Stichprobenprozess zurückzuführen sind als auf einen (nicht unbedingt direkten) Kausalzusammenhang zwischen den Variablen", was darauf hindeutet, dass der P-Wert in einem "überlasteten" Wert liegt. Studie ist nicht dasselbe wie ein P-Wert aus einer "richtig" betriebenen Studie. Das ist falsch. In beiden Fällen ist der P-Wert die Wahrscheinlichkeit, Daten zu erhalten, die so extrem sind wie die beobachteten oder extremer, wenn die Nullhypothese wahr ist.

Wenn Sie den Neyman-Pearson-Ansatz bevorzugen, ist die Rate der falsch positiven Fehler, die aus der Studie mit „Überleistung“ erhalten wurden, dieselbe wie die einer Studie mit „Überleistung“, wenn für beide der gleiche Alpha-Wert verwendet wird.

Der Unterschied in der Interpretation, der benötigt wird, besteht darin, dass es einen unterschiedlichen Zusammenhang zwischen statistischer Signifikanz und wissenschaftlicher Signifikanz für überlastete Studien gibt. Tatsächlich wird die überlastete Studie eine große Wahrscheinlichkeit für die Erlangung von Signifikanz bieten, obwohl der Effekt, wie Sie sagen, winzig und daher von fraglicher Bedeutung ist.

Solange die Ergebnisse einer "überlasteten" Studie angemessen interpretiert werden (und Konfidenzintervalle für die Effektgröße eine solche Interpretation unterstützen), gibt es kein statistisches Problem mit einer "überlasteten" Studie. Vor diesem Hintergrund sind die einzigen Kriterien, anhand derer eine Studie tatsächlich überfordert werden kann, die ethischen und Ressourcenzuweisungsprobleme, die in anderen Antworten aufgeworfen werden.


Danke, das ist sehr informativ. Ich verstehe, dass sich die p-Wert-Definition nicht ändert. Aus statistischer Sicht steigt die Rate der Fehler vom Typ I sicherlich nicht an.
Frank Barry

1
Per Definition legen wir die Fehlerrate vom Typ I beim Festlegen des p-Wert-Schwellenwerts fest. Es scheint jedoch, dass der Unterschied zwischen "statistischer" und "praktischer" Bedeutung hier das Problem ist. Wenn die Stichprobengröße Unterschiede erkennen kann, die viel feiner als die erwartete Effektgröße sind, ist ein statistisch korrekter Unterschied praktisch nicht aussagekräftig (und aus Sicht des "Endbenutzers" ist dies effektiv ein "falsch positives" Ergebnis, selbst wenn es ist keine statistische). Wie Sie sagen, verlässt dies jedoch allmählich den Bereich der Statistik.
Frank Barry

1
dh ich denke, ich stimme zu - "der Unterschied in der Interpretation, der benötigt wird, ist, dass es eine unterschiedliche Beziehung zwischen statistischer Signifikanz und wissenschaftlicher Signifikanz gibt"
Frank Barry

4

In der medizinischen Forschung können Studien unethisch sein, wenn sie zu viele Patienten rekrutieren. Wenn zum Beispiel das Ziel darin besteht, zu entscheiden, welche Behandlung besser ist, ist es nicht mehr ethisch, Patienten mit der schlechteren Behandlung zu behandeln, nachdem festgestellt wurde, dass sie minderwertig sind. Wenn Sie die Stichprobengröße erhöhen, erhalten Sie natürlich eine genauere Schätzung der Effektgröße. Möglicherweise müssen Sie jedoch aufhören, bevor die Auswirkungen von Faktoren wie "geringfügigen Verzerrungen im Stichprobenprozess" auftreten.

Es kann auch unethisch sein, öffentliche Gelder für ausreichend bestätigte Forschung auszugeben.


1

Alles, was Sie gesagt haben, macht Sinn (obwohl ich nicht weiß, auf welche "große Sache" Sie sich beziehen), und ich insb. wie Ihr Punkt über Effektgrößen im Gegensatz zur statistischen Signifikanz. Eine andere Überlegung ist, dass einige Studien die Zuweisung knapper Ressourcen erfordern, um die Teilnahme an jedem Fall zu erreichen, und man es daher nicht übertreiben möchte.


Entschuldigung, "große Sache" ist ein zu großer redaktioneller Kommentar. Die Frage, ob es sich um eine "größere Sache" handelt, als ich es mir vorstelle, ist im Grunde eine Frage, ob es zusätzliche Überlegungen gibt, von denen ich möglicherweise nichts weiß.
Frank Barry

0

Meine Erfahrung stammt aus Online-A / B-Experimenten, bei denen es normalerweise um unzureichende Studien oder das Messen der falschen Dinge geht. Aber es scheint mir, dass eine übermächtige Studie engere Konfidenzintervalle als vergleichbare Studien, niedrigere p-Werte und möglicherweise unterschiedliche Varianz erzeugt. Ich kann mir vorstellen, dass dies den Vergleich ähnlicher Studien erschweren kann. Wenn ich beispielsweise eine überlastete Studie mit der richtigen Leistung wiederholen würde, wäre mein p-Wert höher, selbst wenn ich den Effekt genau replizieren würde. Eine erhöhte Stichprobengröße kann die Variabilität ausgleichen oder zu einer Variabilität führen, wenn es Ausreißer gibt, bei denen die Wahrscheinlichkeit höher ist, dass sie in einer größeren Stichprobe auftreten.

Meine Simulationen zeigen auch, dass andere Effekte als die, an denen Sie interessiert sind, bei einer größeren Stichprobe signifikant werden können. Während der p-Wert Ihnen korrekt die Wahrscheinlichkeit angibt, dass Ihre Ergebnisse real sind, können sie aus anderen Gründen als dem, was Sie denken, real sein, z. B. einer Kombination aus Zufall, einem vorübergehenden Effekt, den Sie nicht kontrolliert haben, und vielleicht einem anderen kleinerer Effekt, den Sie eingeführt haben, ohne es zu merken. Wenn die Studie nur ein wenig überfordert ist, ist das Risiko dafür gering. Das Problem ist oft, dass es schwierig ist, die angemessene Leistung zu ermitteln, z. B. wenn die Basismetriken und der minimale Zieleffekt Vermutungen sind oder sich als anders herausstellen als erwartet.

Ich bin auch auf einen Artikel gestoßen, in dem argumentiert wird, dass eine zu große Stichprobe einen Anpassungstest zu empfindlich für unwichtige Abweichungen machen kann, was zu möglicherweise kontraintuitiven Ergebnissen führt.

Trotzdem glaube ich, dass es am besten ist, eher auf der Seite der hohen als der niedrigen Leistung zu irren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.