Ich kann zeigen, dass es voreingenommen ist (glaube ich), aber ich kann nicht erklären, warum. Ich hoffe, jemand kann meine Antwort sehen und helfen, sie besser zu erklären.
Wie in vielen Metaanalysen und dem von Ihnen geposteten Bild interpretieren viele Menschen die BESD wie folgt: Wenn Sie beide Variablen im Median aufteilen würden, würden Sie die Menschen genau in die "richtigen" Zellen einer 2 x 2-Kontingenztabelle mit einem bestimmten Prozentsatz von setzen die Zeit.
.50 + r / 2 = .70r
r
r = 0,38.50 + r / 2
Ich habe dann den Mittelwert und die Standardabweichung jedes dieser Vektoren mit einer Länge von 10.000 genommen. Der Code:
library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
samp <- pop[sample(1:1000000, 100),]
besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)
Basierend auf BESD, bekommen wir diese Tabelle, wo v1
und v2
beziehen sich auf Variablen und low
und high
beziehen sich auf unter und über dem Median jeweils:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 69 | 31 |
+---------+--------+---------+
| v1 high | 31 | 69 |
+---------+--------+---------+
Basierend auf der tatsächlichen Aufteilung des Medians mit den Rohdaten erhalten wir diese Tabelle:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 62 | 38 |
+---------+--------+---------+
| v1 high | 38 | 62 |
+---------+--------+---------+
Während also jemand mit BESD argumentieren könnte, dass es einen "Unterschied von 38 Prozentpunkten in Kontrolle und Experiment" gibt, hat der tatsächliche Median-Split diese Zahl bei 24.
Ich bin mir nicht sicher, warum dies passiert oder ob es von der Stichprobengröße und der Korrelation abhängt (man könnte leicht mehr Simulationen durchführen, um dies herauszufinden). Ich denke, dies zeigt, dass es voreingenommen ist. Ich würde es lieben, wenn jemand eine mathematische - und keine rechnerische - Erklärung abgeben könnte.