Okay, ich bin ein bisschen zu spät zu dieser Party, aber obwohl ich dem zustimme, was Dsaxton im ersten Absatz sagt, denke ich, dass der zweite Absatz verloren geht.
Die Re-Randomisierung funktioniert sehr gut, um die Nullverteilung für eine Vielzahl von Statistiken anzugeben. Sie haben es jedoch geschafft, ein Problem zu verursachen, indem Sie zwei pathologische Verteilungen (Punktverteilungen auf 9 bzw. 10 zentriert) mit dem Median kombiniert haben - eine Statistik, die möglicherweise am wenigsten nützlich ist, wenn es nur zwei mögliche Werte gibt, weil sie werden können sehr instabil.
Ich werde versuchen, Vergleiche für mehrere Stichprobengrößen durchzugehen, um zu zeigen, was hier passiert. Dies sollte dazu beitragen, die Einsicht von dsaxton zu erklären, dass in der Konsistenz die tatsächliche statistische Aussagekraft liegt.
Stellen Sie sich vor, wir fahren mit jedem Bus eine Fahrt. Wir erhalten eine 9 und eine 10. Wir randomisieren 10.000 Mal, um Schlussfolgerungen zu ziehen. In der Hälfte von ihnen wechseln die Positionen, in der Hälfte nicht. Wenn wir also die Mediane messen, beträgt die Hälfte der Zeit die Differenz der Mediane -1 und die Hälfte der Zeit 1. In ähnlicher Weise beträgt die Hälfte der Zeit die Differenz der Mittel -1 und die Hälfte der Zeit 1 .
Stellen Sie sich nun vor, wir hätten 10 Fahrten mit jedem Bus gemacht, was zu zehn Zehnern und zehn Neunern führte. Wir randomisieren neu. Diesmal führen die meisten Randomisierungen dazu, dass in jeder Stichprobe etwa fünf von jeweils 10 und 9 vorhanden sind. Die Mittelwerte bilden für jede Stichprobe normale Verteilungen (tatsächlich ein verschobenes Binomial) um 9,5, was eine Differenz ergibt, die auf 0 zentriert ist. Die Differenz der Mediane kann gelegentlich 0 sein - wenn wir tatsächlich jeweils fünf Mal in jeder Stichprobe erhalten - was Mediane ergibt in jeder Stichprobe von 9,5, aber es ist wahrscheinlicher, ein leichtes Ungleichgewicht zu haben. Dieses leichte Ungleichgewicht ergibt die Mediane 9 und 10 oder 10 und 9. Daher beträgt die Differenz der Mediane meistens entweder -1 oder 1, was unserem tatsächlichen Ergebnis ähnlich ist und den extra hohen p-Wert ergibt.
Es mag so aussehen, als würde eine weitere Erhöhung der Anzahl der Busfahrten dieses Problem beheben, aber während dies den Mittelwert stabiler macht - und die Null fest um 0 festlegt, destabilisiert es tatsächlich den Median. Es wird immer weniger wahrscheinlich, dass genau diese Übereinstimmung erzielt wird, und so verschwindet der Mittelweg.
Okay. Vielleicht machte das Sinn. Ich werde einen R-Code einfügen, um dies konkret zu machen.
n = 10
a = rep(10,n) #initial samples
b = rep(9,n)
joint.sample = c(a,b) #Combining samples for ease
bootstraps = 10000 #Number of replications
est.mean = mean(a) - mean(b) #Estimate of treatment
boot.mean = replicate(bootstraps, {
new.sample = sample(joint.sample)
mean(new.sample[1:n]) - mean(new.sample[1:n+n])
}) #Simply resamples and takes means of the two groups
CI.mean = quantile(boot.mean,prob=c(0.025,0.975) #Calculates a CI
pval.mean = mean(boot.mean >= est.mean)*2 #Two-sided p-value
#Same things but with median
est.median = median(a)-median(b)
boot.median = replicate(bootstraps, {
new.sample = sample(joint.sample)
median(new.sample[1:n]) - median(new.sample[1:n+n])
})
CI.median = quantile(boot.median,prob=c(0.025,0.975)
pval.median = mean(boot.median >= est.median)*2
Das sollte für Sie Ergebnisse liefern, die zeigen, dass eine Randomisierung mit einem Mittelwert stark ablehnen würde, dass diese gleich waren. Sie können gerne mit der Stichprobengröße n herumspielen, um zu sehen, wie sich dies auf die Dinge auswirkt. In einem so eindeutigen Fall ist jedoch meistens keine große Stichprobe erforderlich, um den Unterschied zu erkennen. Sie sollten auch in der Lage sein, die Verwendung eines Medians abzulehnen - Sie benötigen jedoch ein anderes Verteilungspaar, sodass sich die Mediane etwas mehr bewegen. Alles, was kontinuierlich ist, sollte ich denken, und dann ist es eine Frage der Stichprobengröße.
Ein Hinweis zur Vorsicht. Ich habe die Standardeinstellungen für die Beispielfunktion hier verwendet, um zu bestimmen, ob ich mit oder ohne Ersatz unterwegs bin. Im Allgemeinen möchten Sie sich genau überlegen, welchen Stichprobentyp Sie verwenden, da dies die Ergebnisse beeinflussen kann und wird.