Mein Verständnis des Bootstrap-Ansatzes basiert auf Wassermans Framework (fast wörtlich):
Sei eine Statistik ( ist die aus der Verteilung gezogene iid-Stichprobe ). Angenommen , wir schätzen möchten - die Varianz der gegeben .X i F V F ( T n ) T n F
Der Bootstrap-Ansatz folgt diesen beiden Schritten:
Schätzen Sie mit , wobei die empirische Verteilungsfunktion ist.V F ( T n ) F
Ungefähre mithilfe der Simulation.
Verstehe ich richtig, dass die Simulation in Schritt 2 durch eine genaue Berechnung ersetzt werden könnte, außer dass sie für praktisch nützliche Werte von ? Hier ist meine Überlegung: entspricht genau einem Integral von . ist eine Schrittfunktion mit einer endlichen Anzahl von Schritten; Wir können also alle Punkte außer den Punkten ignorieren, an denen eine Masse ungleich Null hat. Das Integral ist also genau gleich einer Summe von Termen. Sobald 14 überschreitet, ist eine einfache direkte Berechnung unmöglich.V F T n ( X 1 , . . . , X n ) d F ( X 1 ) d F ( X 2 ) . . . d F ( X n ) F n n d F ( x ) n n n
Wir versuchen jedoch nur, ein Integral zu berechnen. Warum nicht die Brute-Force-Bootstrap-Simulation durch einen der traditionellen numerischen Algorithmen für die Aufnahme von Integralen ersetzen? Würde dies nicht zu einer viel höheren Genauigkeit bei gleicher Rechenzeit führen?
Selbst etwas so Einfaches wie das Aufteilen des Probenraums in Abschnitte (möglicherweise bei kleineren Volumina, bei denen die Probenstatistik schneller variiert) und das Schätzen des Werts der Statistik in jedem Abschnitt unter Verwendung des Mittelpunkts scheint besser zu sein als der blinde Bootstrap.
Was vermisse ich?
Vielleicht funktioniert Bootstrap so gut und so schnell, dass nichts komplizierteres getan werden muss? (Wenn beispielsweise der Genauigkeitsverlust in Schritt 1 so viel größer ist als in Schritt 2, sind Verbesserungen an Schritt 2 eher nutzlos.)