Wenn die Antwort-Prädiktor-Paare per Zufallsstichprobe aus einer Grundgesamtheit ermittelt wurden, ist es sicher, das Resampling-Schema case / random-x / your-first zu verwenden. Wenn Prädiktoren kontrolliert wurden oder die Werte der Prädiktoren vom Experimentator festgelegt wurden, können Sie die Verwendung eines Resampling-Schemas in Betracht ziehen, das auf Residuen, Modellen, festem x und Sekunden basiert.
Wie unterscheiden sich die beiden? Eine Einführung in den Bootstrap mit Anwendungen in R von Davison und Kounen enthält eine Diskussion zu dieser Frage (siehe S.9). Siehe auch den R-Code in diesem Anhang von John Fox , insbesondere die Funktionen boot.huber auf S. 5 für das Zufalls-X-Schema und boot.huber.fixed auf S. 10 für das feste X-Schema. Während in den Vorlesungsskripten von Shalizi die beiden Schemata auf unterschiedliche Datensätze / Probleme angewendet werden, zeigt der Anhang von Fox, wie wenig Unterschied die beiden Schemata oft ausmachen.
Wann kann mit nahezu identischen Ergebnissen gerechnet werden? Eine Situation liegt vor, wenn das Regressionsmodell korrekt spezifiziert ist, z. B. keine nicht modellierte Nichtlinearität vorliegt und die üblichen Regressionsannahmen (z. B. ID-Fehler, keine Ausreißer) erfüllt sind. Siehe Kapitel 21 von Fox 'Buch (zu dem der oben genannte Anhang mit dem R-Code indirekt gehört), insbesondere die Diskussion auf Seite 598 und Übung 21.3. mit dem Titel "Random versus Fixed Resampling in Regression". Zitat aus dem Buch
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Sie werden auch aus dieser Diskussion lernen, warum fixed-x bootstrap implizit davon ausgeht, dass die funktionale Form des Modells korrekt ist (obwohl keine Annahme über die Form der Fehlerverteilung gemacht wird).
Siehe auch Folie 12 dieses Vortrags für Society Of Actuaries in Ireland von Derek Bain. Es enthält auch eine Illustration dessen, was als "dasselbe Ergebnis" betrachtet werden sollte:
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.