Sollte man immer erwarten, dass die zentrale Tendenz (dh der Mittelwert und / oder der Median) einer Bootstrap-Probe dem beobachteten Wert ähnlich ist?
In diesem speziellen Fall habe ich Antworten, die für Probanden unter zwei Bedingungen exponentiell verteilt sind (ich habe das Experiment nicht durchgeführt, ich habe nur die Daten). Ich wurde beauftragt, die Effektgröße zu booten (in Bezug auf Cohens d, die Ein-Stichproben-Formel, dh wobei die Stichprobenschätzung der Populationsstandardabweichung ist. Das Forum dafür ist bereitgestellt in Rosenthal & Rosnow (2008) auf S. 398, Gleichung 13.27. Sie verwenden im Nenner, weil es historisch korrekt ist, jedoch hat die Standardpraxis d als Verwendung von falsch definiert , und so folge ich diesem Fehler in der obigen Berechnung .
Ich habe sowohl innerhalb der Teilnehmer (dh die RT eines Teilnehmers kann mehr als einmal beprobt werden) als auch zwischen den Probanden (Teilnehmer können mehr als einmal beprobt werden) so randomisiert, dass selbst wenn Teilnehmer 1 zweimal beprobt wird, ihre mittlere RT in beiden Stichproben unwahrscheinlich ist genau gleich. Für jeden randomisierten / neu abgetasteten Datensatz berechne ich d neu. In diesem Fall ist . Was ich beobachte, ist ein Trend, dass der beobachtete Wert von Cohens d typischerweise näher am 97,5-Perzentil von als am 2,5-Perzentil der simulierten beobachteten Werte liegt. Es liegt auch tendenziell näher bei 0 als der Median des Bootstraps (um 5% bis 10% der Dichte der simulierten Verteilung).
Was kann das erklären (unter Berücksichtigung des Ausmaßes des Effekts, den ich beobachte)? Liegt es daran, dass es beim erneuten Abtasten „einfacher“ ist, extremere Varianzen zu erhalten als bei der erneuten Abtastung in Bezug auf die äußersten Mittelwerte? Könnte dies ein Spiegelbild von Daten sein, die übermäßig massiert / selektiv getrimmt wurden? Entspricht dieser Resampling-Ansatz einem Bootstrap? Wenn nicht, was muss noch getan werden, um ein CI zu erstellen?