Auch ich war von Bootstrapping und Bayes 'Theorem verführt, aber ich konnte die Rechtfertigungen von Bootstrapping nicht verstehen, bis ich es aus Bayes'scher Perspektive betrachtete. Dann kann - wie ich weiter unten erläutere - die Bootstrap-Verteilung als eine Bayes'sche posteriore Verteilung angesehen werden, die die (a?) Begründung für das Bootstrapping offensichtlich macht und auch den Vorteil hat, die getroffenen Annahmen zu klären. Weitere Einzelheiten zu dem folgenden Argument und den getroffenen Annahmen finden Sie unter https://arxiv.org/abs/1803.06214 (Seiten 22-26).
Angenommen, wir haben ein Beispiel in der Tabelle unter http://woodm.myweb.port.ac.uk/SL/resample.xlsx (klicken Sie auf die Registerkarte bootstrap am unteren Bildschirmrand) Eine Stichprobe von 9 Messungen mit einem Mittelwert von 60. Als ich die Tabelle zur Erstellung von 1000 Resamples mit Ersatz aus dieser Stichprobe verwendete und die Mittelwerte auf die nächste gerade Zahl abrundete, waren 82 dieser Mittelwerte 54. Die Idee von Bootstrapping ist, dass wir Verwenden Sie die Stichprobe als "vorgetäuschte" Grundgesamtheit, um festzustellen, wie unterschiedlich die Mittelwerte der Stichproben von 9 wahrscheinlich sind. Dies deutet darauf hin, dass die Wahrscheinlichkeit eines Stichprobenmittelwerts 6 unter dem Grundgesamtheitsmittelwert liegt (in diesem Fall die vorgetäuschte Grundgesamtheit basierend auf dem Stichprobe mit einem Mittelwert von 60) beträgt 8,2%. Und wir können zu einer ähnlichen Schlussfolgerung über die anderen Balken im Resampling-Histogramm kommen.
Stellen wir uns nun vor, die Wahrheit ist, dass der Mittelwert der realen Bevölkerung 66 beträgt. Wenn dies der Fall ist, beträgt unsere Schätzung der Wahrscheinlichkeit, dass der Stichprobenmittelwert 60 (dh die Daten) beträgt, 8,2% (unter Verwendung der Schlussfolgerung im obigen Absatz) dass 60 6 unter dem hypothetischen Populationsmittel von 66 liegt). Schreiben wir das als
P (Daten angegeben Mittelwert = 66) = 8,2%
und diese Wahrscheinlichkeit entspricht einem x-Wert von 54 in der Neuabtastungsverteilung. Dieselbe Art von Argument gilt für jeden möglichen Populationsmittelwert von 0, 2, 4 ... 100. Die Wahrscheinlichkeit ergibt sich jeweils aus der Resampling-Verteilung - diese Verteilung spiegelt sich jedoch über den Mittelwert von 60 wider.
Wenden wir nun den Satz von Bayes an. Die fragliche Messung kann nur Werte zwischen 0 und 100 annehmen, so dass auf die nächste gerade Zahl gerundet die Möglichkeiten für den Populationsmittelwert 0, 2, 4, 6, ... 100 sind. Wenn wir annehmen, dass die vorherige Verteilung flach ist, hat jede von diesen eine vorherige Wahrscheinlichkeit von 2% (bis 1 dp), und der Satz von Bayes sagt uns, dass
P (PopMean = 66 gegebene Daten) = 8,2% * 2% / P (Daten)
wo
P (Daten) = P (PopMean = 0 gegebene Daten) * 2% + P (PopMean = 2 gegebene Daten) * 2% + ... + P (PopMean = 100 gegebene Daten) * 2%
Wir können jetzt die 2% stornieren und uns daran erinnern, dass die Summe der Wahrscheinlichkeiten 1 sein muss, da die Wahrscheinlichkeiten einfach die aus der Resampling-Verteilung sind. Was uns zu dem Schluss bringt, dass
P (PopMean = 66) = 8,2%
Wenn man bedenkt, dass 8,2% die Wahrscheinlichkeit aus der Neuabtastungsverteilung ist, die 54 entspricht (anstelle von 66), ist die hintere Verteilung einfach die Neuabtastungsverteilung, die sich über den Probenmittelwert (60) widerspiegelt. Wenn die Neuabtastungsverteilung in dem Sinne symmetrisch ist, dass Asymmetrien zufällig sind - wie in diesem und vielen anderen Fällen -, können wir die Neuabtastungsverteilung als identisch mit der posterioren Wahrscheinlichkeitsverteilung annehmen.
Dieses Argument geht von verschiedenen Annahmen aus, von denen die Hauptannahme darin besteht, dass die vorherige Verteilung einheitlich ist. Diese werden in dem oben zitierten Artikel ausführlicher beschrieben.