Ist eine Machtanalyse von vornherein im Wesentlichen nutzlos?

Ich nahm letzte Woche an einer Sitzung der Gesellschaft für Persönlichkeits- und Sozialpsychologie teil, bei der ich einen Vortrag von Uri Simonsohn mit der Prämisse sah, dass die Verwendung einer A-priori-Potenzanalyse zur Bestimmung der Stichprobengröße im Wesentlichen nutzlos war, da die Ergebnisse so anfällig für Annahmen sind.

Natürlich widerspricht diese Behauptung dem, was ich in meiner Methodenklasse gelernt habe, und den Empfehlungen vieler bekannter Methodologen (insbesondere Cohen, 1992 ), weshalb Uri einige Beweise vorlegte, die sich auf seine Behauptung beziehen. Ich habe versucht, einige dieser Beweise unten neu zu erstellen.

Stellen wir uns der Einfachheit halber eine Situation vor, in der Sie zwei Gruppen von Beobachtungen haben und davon ausgehen, dass die Effektgröße (gemessen an der standardisierten mittleren Differenz) beträgt . Eine Standardleistungsberechnung (durchgeführt mit dem unten stehenden Paket) gibt an, dass Beobachtungen erforderlich sind , um 80% Leistung mit diesem Design zu erhalten. $.5$ Rpwr $128$

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Normalerweise sind unsere Vermutungen über die voraussichtliche Größe des Effekts (zumindest in den Sozialwissenschaften, die mein Fach sind) jedoch genau das - sehr grobe Vermutungen. Was passiert dann, wenn wir nicht genau wissen, wie groß der Effekt ist? Eine schnelle Leistungsberechnung zeigt Ihnen, dass Sie bei einer Effektgröße von statt Beobachtungen benötigen - das fache der Zahl, die Sie für eine Effektgröße von benötigen würden . Wenn die Größe des Effekts beträgt , sind nur Beobachtungen erforderlich. 70% der Leistung, die zur Erkennung einer Effektgröße von erforderlich wäre $.4$ $.5$ $200$ $1.56$ $.5$ $.6$ $90$ $.50$ . In der Praxis ist der Bereich der geschätzten Beobachtungen ziemlich groß - bis . $90$ $200$

Eine Antwort auf dieses Problem ist, dass Sie, anstatt nur eine Vermutung über die Größe des Effekts anzustellen, Beweise über die Größe des Effekts sammeln, entweder durch frühere Literatur oder durch Pilottests. Wenn Sie Pilottests durchführen, möchten Sie natürlich, dass Ihr Pilottest so klein ist, dass Sie nicht nur eine Version Ihrer Studie durchführen, um die Stichprobengröße zu bestimmen, die für die Durchführung der Studie erforderlich ist (dh, Sie würden dies tun) möchten, dass die im Pilottest verwendete Stichprobengröße kleiner als die Stichprobengröße Ihrer Studie ist).

Uri Simonsohn argumentierte, dass Pilottests zum Zweck der Bestimmung der Effektgröße, die in Ihrer Leistungsanalyse verwendet wird, unbrauchbar sind. Betrachten Sie die folgende Simulation, in der ich lief R. Bei dieser Simulation wird davon ausgegangen, dass die Größe des Populationseffekts beträgt . Anschließend werden "Pilottests" der Größe 40 durchgeführt und die empfohlenen aus jedem der 10000 Pilottests tabellarisch aufgeführt . $.5$ $1000$ $N$

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Unten sehen Sie ein Dichtediagramm, das auf dieser Simulation basiert. Ich habe der Pilottests weggelassen , die eine Anzahl von Beobachtungen über empfohlen haben , um das Bild deutlicher zu machen. Auch auf den weniger extreme Ergebnisse der Simulation konzentriert, gibt es große Unterschiede in der von den empfohlenen Pilotversuche. $204$ $500$ $Ns$ $1000$

Bildbeschreibung hier eingeben

Natürlich bin ich mir sicher, dass das Problem der Empfindlichkeit gegenüber Annahmen immer schlimmer wird, je komplizierter das Design wird. Beispielsweise hat in einem Entwurf, der die Spezifikation einer Zufallseffektstruktur erfordert, die Art der Zufallseffektstruktur dramatische Auswirkungen auf die Leistungsfähigkeit des Entwurfs.

Was haltet ihr von diesem Argument? Ist eine Machtanalyse von vornherein im Wesentlichen nutzlos? Wenn ja, wie sollten Forscher den Umfang ihrer Studien planen?

— Patrick S. Forscher
quelle

Das klingt nach einer Verurteilung der sinnlosen Machtanalyse, nicht der Machtanalyse selbst. Die größere Frage ist, ob dies ein Angriff auf einen Strohmann ist oder ob es tatsächlich viele Menschen gibt, die ihre Machtanalysen (oder andere Analysen) ohne Rücksicht auf ihre Sensibilität für Annahmen durchführen. Wenn letzteres zutrifft, ist es gut, sie aufzuklären, aber ich hoffe, sie werden nicht so entmutigt, dass sie alle Bemühungen aufgeben, ihre Experimente zu planen!

— whuber

Erinnert mich ziemlich an stats.stackexchange.com/q/2492/32036 , und das nicht nur wegen der syntaktischen Ähnlichkeit bei der Formulierung der Titelfrage . Scheint eine Frage zu sein, wie man die Annahmen versteht. Bei beiden geht es vor allem darum, die Vorurteilsempfindlichkeit dieser Analysen zu verstehen, anstatt alles oder nichts zu beurteilen, ob ihre Annahmen (a) absolut entscheidend oder (b) vernachlässigbar sind. Dies ist der Schlüssel zu nützlichen und nicht schädlichen Schlussfolgerungen im Allgemeinen. Ich fürchte, es ist kein Strohmann. Menschen denken allzu oft in absoluten Zahlen, wenn sie es nicht wissen oder können oder sich darum kümmern.

— Nick Stauner

Ich wollte dies nicht in die Frage aufnehmen, weil ich an den Empfehlungen anderer interessiert war, aber Uri Simonsohn empfahl am Ende des Vortrags, Ihre Studie so zu betreiben, dass der kleinste Effekt ermittelt wird, den Sie interessieren.

— Patrick S. Forscher

@ PatrickS.Forscher: Also, nachdem alles gesagt und getan ist, glaubt er an eine a priori Machtanalyse. Er ist nur der Meinung, dass die Effektgröße mit Bedacht gewählt werden sollte: keine Vermutung, was es sein könnte , sondern der minimale Wert, den Sie interessieren würden. Klingt nach einer Lehrbuchbeschreibung für die Leistungsanalyse: Stellen Sie sicher, dass Sie über genügend Daten verfügen, die Ihrer Meinung nach einen praktisch signifikanten Unterschied ergeben.

— Wayne

So wie Uri den Vortrag inszeniert hat, glaube ich, ist eine Machtanalyse von vornherein nutzlos, wie sie in den Sozialwissenschaften normalerweise durchgeführt wird, aber vielleicht nicht, wie sie an anderer Stelle gelehrt wird. In der Tat wurde mir beigebracht, meine Leistungsanalyse auf eine vernünftige Schätzung der Größe des gesuchten Effekts zu stützen und nicht auf den Effekt, den ich in der Praxis interessieren würde.

— Patrick S. Forscher

Das Grundproblem hier ist wahr und in der Statistik ziemlich gut bekannt. Seine Interpretation / Behauptung ist jedoch extrem. Es gibt mehrere Punkte zu besprechen:

$N$ $\sqrt N$ $N$ $50\%$ $80\%$ $d$ $d$ $d = .5$ $N = 128$ $\approx 7.9\%$ $\approx 5.5\%$ $.1$ $\approx 16.9\%$ $.1$ $\approx 12.6\%$

Bildbeschreibung hier eingeben

$d$

$80\%$

Zweitens ist in Bezug auf die weiter gefasste Behauptung, dass Leistungsanalysen (von vornherein oder auf andere Weise) auf Annahmen beruhen, nicht klar, was mit diesem Argument zu tun ist. Natürlich tun sie das. Alles andere auch. Wenn Sie keine Leistungsanalyse durchführen, sondern nur eine Datenmenge basierend auf einer von Ihnen ausgewählten Zahl erfassen und dann Ihre Daten analysieren, wird dies die Situation nicht verbessern. Darüber hinaus basieren Ihre resultierenden Analysen weiterhin auf Annahmen, so wie es bei allen Analysen (Potenz oder auf andere Weise) immer der Fall ist. Wenn Sie stattdessen beschließen, weiterhin Daten zu sammeln und sie erneut zu analysieren, bis Sie ein Bild erhalten, das Ihnen gefällt, oder das Sie müde werden, ist dies weitaus weniger gültig (und beinhaltet immer noch Annahmen, die für den Sprecher möglicherweise unsichtbar sind, aber nicht das gibt es doch). Einfach ausgedrückt,Es führt kein Weg daran vorbei, dass in der Forschung und Datenanalyse Annahmen getroffen werden .

Möglicherweise finden Sie diese Ressourcen von Interesse:

Kraemer, HC, Mintz, J., Noda, A., Tinklenberg, J. & Yesavage, JA (2006). Vorsicht hinsichtlich der Verwendung von Pilotstudien als Leitfaden für Leistungsberechnungen für Studienvorschläge , Archives of General Psychiatry, 63 , 5, S. 484-489.
Uebersax, JA (2007). Bayesianische bedingungslose Leistungsanalyse. http://www.john-uebersax.com/stat/bpower.htm

— gung - Wiedereinsetzung von Monica
quelle

Ich denke, Uri Simonsohns Argument war nicht, dass Annahmen an sich schlecht sind, sondern dass Leistungsanalysen im Allgemeinen so empfindlich auf Annahmen reagieren, dass sie für die Planung von Stichprobengrößen unbrauchbar werden. Ihre Punkte sind jedoch ausgezeichnet, ebenso wie die Referenzen, die Sie angegeben haben (+1).

— Patrick S. Forscher

Ihre Änderungen verbessern diese bereits ausgezeichnete Antwort weiter. :)

— Patrick S. Forscher

Ich stimme zu, dass dies eine großartige Antwort ist, und ich wollte Sie (und andere) nur wissen lassen, dass ich Sie in einem kürzlich erschienenen Blogbeitrag zitiert habe, den ich zu diesem Thema geschrieben habe: jakewestfall.org/blog/index.php/2015/06/ 16 /…

— Jake Westfall

@JakeWestfall, schöner Beitrag! Wenn Sie Cookies studieren, tun Sie dies in erster Linie, indem Sie sie essen? Benötigen Sie einen statistischen Berater für eines dieser Projekte?

— gung - Wiedereinsetzung von Monica