Können wir Bootstrap-Beispiele verwenden, die kleiner als das Originalmuster sind?


12

Ich möchte Bootstrapping verwenden, um Konfidenzintervalle für geschätzte Parameter aus einem Panel-Datensatz mit N = 250 Unternehmen und T = 50 Monaten zu schätzen. Die Schätzung von Parametern ist aufgrund der Verwendung der Kalman-Filterung und der komplexen nichtlinearen Schätzung rechenintensiv (wenige Tage Berechnung). Daher ist es rechnerisch nicht möglich, (mit Ersatz) B (in Hunderten oder mehr) Stichproben von M = N = 250 Firmen aus der ursprünglichen Stichprobe zu ziehen und die Parameter B-mal zu schätzen, obwohl dies die grundlegende Methode für das Bootstrapping ist.

Daher erwäge ich, für Bootstrap-Stichproben (anstelle der vollen Größe von N = 250) ein kleineres M (z. B. 10) zu verwenden, das zufällig durch Ersatz von Originalfirmen gezogen wird, und dann die vom Bootstrap geschätzte Kovarianzmatrix der Modellparameter mit 1 zu skalieren1NM (im obigen Beispiel um 1/25), um die Kovarianzmatrix für die Modellparameter zu berechnen, die für die vollständige Stichprobe geschätzt wurden.

Gewünschte Konfidenzintervalle können dann basierend auf der Normalitätsannahme oder empirischen Intervallen für kleinere Stichproben, die mit einem ähnlichen Verfahren skaliert wurden (z. B. um den Faktor 1 verkleinert), angenähert werden1NM .

Ist diese Problemumgehung sinnvoll? Gibt es theoretische Ergebnisse, um dies zu rechtfertigen? Gibt es Alternativen, um diese Herausforderung anzugehen?

Antworten:


4

Diese Frage wurde vor langer Zeit gestellt, aber ich poste eine Antwort, falls jemand sie in Zukunft entdeckt. Kurz gesagt, die Antwort lautet Ja: Sie können dies in vielen Einstellungen tun, und Sie können die Änderung der Stichprobengröße zu Recht um korrigierenMN . Dieser Ansatz wird normalerweise alsMaus-NBoostrap bezeichnet und funktioniert in den meisten Einstellungen, die der "traditionelle" Bootstrap ausführt, sowie in einigen Einstellungen, in denen dies nicht der Fall ist.

Der Grund dafür ist, dass viele Bootstrap-Konsistenzargumente Schätzer der Form 1N(TNμ), wobeiX1,,XNZufallsvariablen sind undμein Parameter der zugrunde liegenden Verteilung ist. Zum Beispiel ist für den StichprobenmittelwertTN=1Ni=1NXiundμ=E(X1).

Viel Bootstrap Konsistenz Proofs argumentieren , dass, wie N , da eine endliche Probe {x1,,xN} und Punktschätzung assoziiert μ N = T N ( x 1 , ... , x N ) , μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
wobei dasXiaus der wahren zugrunde liegenden Verteilung und dasXidurch Ersetzen aus{x1,,xN}.

Wir könnten jedoch auch kürzere Stichproben der Länge M<N und den Schätzer berücksichtigen

(2)M(TM(X1,,XM)μ^N).
Es stellt sich heraus, dassder Schätzer (2)alsM,Ndie gleiche Grenzverteilung wie oben in den meisten Einstellungen hat, in denen (1) gilt, und in einigen, in denen dies nicht der Fall ist. In diesem Fall haben (1) und (2) die gleiche Grenzverteilung, was den Korrekturfaktormotiviert2112MN in zB der Standardabweichung der Stichprobe.

Diese Argumente sind alle asymptotisch und gelten nur für die Grenze M,N . Damit dies funktioniert, ist es wichtig, M zu klein auszuwählen . Es gibt einige Theorien (z. B. Bickel & Sakov unten), wie das optimale M als Funktion von N , um die besten theoretischen Ergebnisse zu erzielen. In Ihrem Fall können jedoch Rechenressourcen der entscheidende Faktor sein.

Für einige Intuition: In vielen Fällen haben wir μ N D μ als N , so dass μ^NDμN

(3)N(TN(X1,,XN)μ),
kann ein bisschen wie ein gedacht werdenmausnmit Bootstrapm=Nundn=(Ich bin mit Kleinbuchstaben zu vermeiden Notation Verwirrung) . Auf diese Weise ist das Emulieren der Verteilung von () unter Verwendung einesMausNBootstraps mitM<Neine "richtigere" Sache als die herkömmliche (NausN)3MNM<NNN) nett. Ein zusätzlicher Bonus in Ihrem Fall ist, dass die Bewertung weniger rechenintensiv ist.

Wie Sie bereits erwähnt haben, sind Politis und Romano das Hauptpapier. Ich finde Bickel et al. (1997) unten auch einen schönen Überblick über das M aus N Bootstrap.

Quellen :

PJ Bickel, F. Goetze, WR van Zwet. 1997. Resampling von weniger als n Beobachtungen: Gewinne, Verluste und Abhilfemaßnahmen für Verluste. Statistica Sinica.

PJ Bickel, ein Sakov. 2008. Über die Wahl von m im m ouf von n Bootstrap und Vertrauensgrenzen für Extrema. Statistica Sinica.


3

Nachdem Sie mehr über das Thema gelesen haben, scheint es unter "Unterabtastung" eine etablierte Theorie zu geben, die diese Art der Konfidenzintervallschätzung ermöglicht. Die Hauptreferenz ist "Politis, DN; Romano, JP (1994). Große Stichprobenvertrauensbereiche basierend auf Teilstichproben unter minimalen Annahmen. Annals of Statistics, 22, 2031-2050."

Die Idee ist, Proben mit einer Größe von M <N "ohne Ersatz" für jede Probe (jedoch mit Ersatz über verschiedene Proben der Größe B) aus den N anfänglichen Datenpunkten (in meinem Fall Reihen) zu ziehen und das Konfidenzintervall von zu schätzen Parameter von Interesse unter Verwendung dieser Beispiele und der allgemeinen Bootstrap-Methode. Skalieren Sie dann das Konfidenzintervall basierend auf der Änderungsrate der Varianz der zugrunde liegenden Parameterverteilung mit Änderungen in M. Diese Rate beträgt in vielen gängigen Einstellungen 1 / M, könnte jedoch empirisch geschätzt werden, wenn wir das Verfahren mit einigen verschiedenen M wiederholen Werte und betrachten Sie die Änderungen in der Größe der Inter-Perzentil-Bereiche.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.