Meine Erfahrung stammt aus Online-A / B-Experimenten, bei denen es normalerweise um unzureichende Studien oder das Messen der falschen Dinge geht. Aber es scheint mir, dass eine übermächtige Studie engere Konfidenzintervalle als vergleichbare Studien, niedrigere p-Werte und möglicherweise unterschiedliche Varianz erzeugt. Ich kann mir vorstellen, dass dies den Vergleich ähnlicher Studien erschweren kann. Wenn ich beispielsweise eine überlastete Studie mit der richtigen Leistung wiederholen würde, wäre mein p-Wert höher, selbst wenn ich den Effekt genau replizieren würde. Eine erhöhte Stichprobengröße kann die Variabilität ausgleichen oder zu einer Variabilität führen, wenn es Ausreißer gibt, bei denen die Wahrscheinlichkeit höher ist, dass sie in einer größeren Stichprobe auftreten.
Meine Simulationen zeigen auch, dass andere Effekte als die, an denen Sie interessiert sind, bei einer größeren Stichprobe signifikant werden können. Während der p-Wert Ihnen korrekt die Wahrscheinlichkeit angibt, dass Ihre Ergebnisse real sind, können sie aus anderen Gründen als dem, was Sie denken, real sein, z. B. einer Kombination aus Zufall, einem vorübergehenden Effekt, den Sie nicht kontrolliert haben, und vielleicht einem anderen kleinerer Effekt, den Sie eingeführt haben, ohne es zu merken. Wenn die Studie nur ein wenig überfordert ist, ist das Risiko dafür gering. Das Problem ist oft, dass es schwierig ist, die angemessene Leistung zu ermitteln, z. B. wenn die Basismetriken und der minimale Zieleffekt Vermutungen sind oder sich als anders herausstellen als erwartet.
Ich bin auch auf einen Artikel gestoßen, in dem argumentiert wird, dass eine zu große Stichprobe einen Anpassungstest zu empfindlich für unwichtige Abweichungen machen kann, was zu möglicherweise kontraintuitiven Ergebnissen führt.
Trotzdem glaube ich, dass es am besten ist, eher auf der Seite der hohen als der niedrigen Leistung zu irren.