Ist die Anzeige der Binomialeffektgröße (BESD) eine irreführende Darstellung der Effektgröße?

10

Es fällt mir schwer zu akzeptieren, dass Donald Rubin jemals eine echte Zitrone einer Technik entwickeln würde. Das ist jedoch meine Wahrnehmung des BESD [ 1 , 2 , 3 ].

Das Originalpapier von Rosenthal und Rubin (1982) behauptete, es sei sinnvoll zu zeigen, "wie eine Produkt-Moment-Korrelation in eine solche [2x2] -Anzeige umgewandelt werden kann, unabhängig davon, ob die Originaldaten kontinuierlich oder kategorisch sind".

Die folgende Tabelle ist von p. 451 des 2. Links oben:

Geben Sie hier die Bildbeschreibung ein

$R^2$ $\phi$

Vermisse ich hier etwas wirklich Wertvolles? Ich habe auch den Eindruck, dass die statistische Gemeinschaft dies in den letzten 10 Jahren im Großen und Ganzen als legitime Methode abgelehnt hat - irre ich mich darin?

$E$ $C$ $sr$

$E_{sr} = .50 + r/2$

und

$C_{sr} = .50 - r/2$

Referenz:

Rosenthal, R. & Rubin, DB (1982). Eine einfache Allzweckanzeige der Größe des experimentellen Effekts. Journal of Educational Psychology, 74 , 166–169.

interpretation effect-size

— rolando2
quelle

r

$r$

Ihre guten Ideen waren das einzige Feedback oder die einzige Antwort, die ich gesehen habe.

— Rolando2

2

Ich habe es nicht gelesen, aber das scheint sehr relevant zu sein: Hsu, LM (2004). Verzerrungen von Erfolgsratenunterschieden, die in Binomialeffektgrößenanzeigen angezeigt werden. Psychological Methods, 9 (2), 183 & ndash; 197. Einige Kritikpunkte werden auch diskutiert in: Randolph, JJ & Edmondson, RS (2005). Verwenden der Binomial Effect Size Display (BESD), um die Größe der Effektgrößen dem Bewertungspublikum anzuzeigen. Praktische Bewertung, Forschung und Bewertung, 10 (14).

— Wolfgang

4

Ich kann zeigen, dass es voreingenommen ist (glaube ich), aber ich kann nicht erklären, warum. Ich hoffe, jemand kann meine Antwort sehen und helfen, sie besser zu erklären.

Wie in vielen Metaanalysen und dem von Ihnen geposteten Bild interpretieren viele Menschen die BESD wie folgt: Wenn Sie beide Variablen im Median aufteilen würden, würden Sie die Menschen genau in die "richtigen" Zellen einer 2 x 2-Kontingenztabelle mit einem bestimmten Prozentsatz von setzen die Zeit.

$.50 + r/2 = .70$ $r$

$r$

$r = .38$ $.50 + r/2$

Ich habe dann den Mittelwert und die Standardabweichung jedes dieser Vektoren mit einer Länge von 10.000 genommen. Der Code:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

Basierend auf BESD, bekommen wir diese Tabelle, wo v1und v2beziehen sich auf Variablen und lowund highbeziehen sich auf unter und über dem Median jeweils:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

Basierend auf der tatsächlichen Aufteilung des Medians mit den Rohdaten erhalten wir diese Tabelle:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

Während also jemand mit BESD argumentieren könnte, dass es einen "Unterschied von 38 Prozentpunkten in Kontrolle und Experiment" gibt, hat der tatsächliche Median-Split diese Zahl bei 24.

Ich bin mir nicht sicher, warum dies passiert oder ob es von der Stichprobengröße und der Korrelation abhängt (man könnte leicht mehr Simulationen durchführen, um dies herauszufinden). Ich denke, dies zeigt, dass es voreingenommen ist. Ich würde es lieben, wenn jemand eine mathematische - und keine rechnerische - Erklärung abgeben könnte.

— Mark White
quelle

2

Mark Whites Intuition ist falsch. Das BESD modelliert keine Medianaufteilung. Ein Median-Split ist mit einem echten statistischen Informationsverlust verbunden - er schwächt die Beziehungen systematisch ab (siehe http://psycnet.apa.org/record/1990-24322-001)), weshalb die mittleren Teilungswerte eine geringere Genauigkeit aufweisen als die BESD. Das BESD demonstriert die Klassifizierungsgenauigkeit, als ob die Variablen wirklich dichotom wären und nicht durch eine Medianaufteilung künstlich dichotomisiert würden. Um dies zu sehen, berechnen Sie die Korrelation für die Median-Split-Daten. Sie werden sehen, dass es kleiner als die Korrelation für die ursprünglichen Variablen ist. Wenn die Variablen ursprünglich binär wären, würden die beiden Methoden übereinstimmen. Das BESD zeigt von Natur aus Variablen an, als wären sie wirklich binär. Wenn es für kontinuierliche Variablen verwendet wird, stellt dies notwendigerweise eine Abstraktion dar - es gibt nicht wirklich "Erfolg" - und "Misserfolg" - oder "Behandlungs" - und "Kontroll" -Gruppen,

Das BESD ist nicht voreingenommen. Es spiegelt genau den Einfluss einer bestimmten Behandlung auf die Klassifizierungsgenauigkeit wider, wenn wir mit zwei binären Variablen gearbeitet haben. Es ist eine nützliche Anzeige, um den potenziellen praktischen Wert einer Maßnahme oder Behandlung zu demonstrieren, und ja, es zeigt, dass selbst Effekte mit geringer Varianz, die für die Statistik berücksichtigt werden, von Bedeutung sein können. Das BESD ist in der angewandten psychologischen und organisatorischen Praxis weit verbreitet und stimmt stark mit anderen praktischen Effektgrößenanzeigen überein (z. B. führt die Auswahl einer Gruppe von oben nach unten unter Verwendung eines Maßes mit einer Gültigkeitskorrelation von r = 0,25 zu 0,25 SD-Steigerung der Ergebnisleistung in der ausgewählten Gruppe gegenüber einer nicht ausgewählten Gruppe).

Die für Statistiken berücksichtigte Varianz führt durchweg zu Missverständnissen und unterschätzt die Größe der Variablenbeziehungen, da die Quadrierungsoperation nichtlinear ist. Viele angewandte Methodologen (z. B. https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) raten dringend von ihrer Verwendung zugunsten ihrer Quadratwurzeln ab (die die Größe von genauer angeben Auswirkungen).

— Brenton Wiernik
quelle