Angenommen, man führt den sogenannten nichtparametrischen Bootstrap durch, indem man aus den ursprünglichen Beobachtungen jeweils Stichproben der Größe mit Ersetzung zieht . Ich glaube, dieses Verfahren entspricht der Schätzung der kumulativen Verteilungsfunktion durch das empirische cdf:
http://en.wikipedia.org/wiki/Empirical_distribution_function
und dann Erhalten der Bootstrap-Abtastwerte durch Simulieren von Beobachtungen aus den geschätzten cdf Zeiten in einer Reihe.
Wenn ich damit recht habe, muss man sich mit dem Problem der Überanpassung befassen, da das empirische cdf ungefähr N Parameter hat. Natürlich konvergiert es asymptotisch zur Population cdf, aber was ist mit endlichen Stichproben? Wenn ich Ihnen zum Beispiel sagen würde, dass ich 100 Beobachtungen habe und das cdf mit zwei Parametern als einschätzen würde, wären Sie nicht beunruhigt. Wenn die Anzahl der Parameter jedoch auf 100 steigen würde, wäre dies überhaupt nicht sinnvoll.
Wenn man eine standardmäßige multiple lineare Regression anwendet, wird die Verteilung des Fehlerterms auf geschätzt . Wenn man sich entscheidet, auf das Bootstrapping der Residuen umzusteigen, muss man erkennen, dass es jetzt ungefähr Parameter gibt, die nur dazu verwendet werden, die Verteilung der Fehlerausdrücke zu handhaben.
Weisen Sie mich bitte an einige Quellen weiter, die sich ausdrücklich mit diesem Problem befassen, oder erklären Sie mir, warum es kein Problem ist, wenn Sie der Meinung sind, dass ich es falsch verstanden habe.