Bootstrap vs numerische Integration

8

Mein Verständnis des Bootstrap-Ansatzes basiert auf Wassermans Framework (fast wörtlich):

Sei eine Statistik ( ist die aus der Verteilung gezogene iid-Stichprobe ). Angenommen , wir schätzen möchten - die Varianz der gegeben . $T_n = g(X_1, ..., X_n)$ $X_i$ $F$ $V_F(T_n)$ $T_n$ $F$

Der Bootstrap-Ansatz folgt diesen beiden Schritten:

Schätzen Sie mit , wobei die empirische Verteilungsfunktion ist. $V_F(T_n)$ $V_{\hat{F}}(T_n)$ $\hat{F}$

Ungefähre mithilfe der Simulation. $V_{\hat{F}}(T_n)$

Verstehe ich richtig, dass die Simulation in Schritt 2 durch eine genaue Berechnung ersetzt werden könnte, außer dass sie für praktisch nützliche Werte von ? Hier ist meine Überlegung: entspricht genau einem Integral von . ist eine Schrittfunktion mit einer endlichen Anzahl von Schritten; Wir können also alle Punkte außer den Punkten ignorieren, an denen eine Masse ungleich Null hat. Das Integral ist also genau gleich einer Summe von Termen. Sobald 14 überschreitet, ist eine einfache direkte Berechnung unmöglich. $n$ $V_{\hat{F}}$ $T_n(X_1, ..., X_n)d\hat{F}(X_1)d\hat{F}(X_2)...d\hat{F}(X_n)$ $\hat{F}$ $n$ $n$ $d\hat{F}(x)$ $n^n$ $n$

Wir versuchen jedoch nur, ein Integral zu berechnen. Warum nicht die Brute-Force-Bootstrap-Simulation durch einen der traditionellen numerischen Algorithmen für die Aufnahme von Integralen ersetzen? Würde dies nicht zu einer viel höheren Genauigkeit bei gleicher Rechenzeit führen?

Selbst etwas so Einfaches wie das Aufteilen des Probenraums in Abschnitte (möglicherweise bei kleineren Volumina, bei denen die Probenstatistik schneller variiert) und das Schätzen des Werts der Statistik in jedem Abschnitt unter Verwendung des Mittelpunkts scheint besser zu sein als der blinde Bootstrap.

Was vermisse ich?

Vielleicht funktioniert Bootstrap so gut und so schnell, dass nichts komplizierteres getan werden muss? (Wenn beispielsweise der Genauigkeitsverlust in Schritt 1 so viel größer ist als in Schritt 2, sind Verbesserungen an Schritt 2 eher nutzlos.)

bootstrap computational-statistics

— max
quelle

6

Der Bootstrap funktioniert bemerkenswert gut. Wenn Sie den Mittelwert, die Varianz und einige nicht zu extreme Quantile der Verteilung von niedrigdimensionalem schätzen möchten, wird der Monte-Carlo-Fehler durch einige hundert bis einige tausend Neuabtastungen vernachlässigbar für viele realistische Probleme. Als glückliches Nebenprodukt erhalten Sie auch eine Probe von , die auf Wunsch für diagnostische Verfahren verwendet werden kann, und es ist nicht allzu schwierig, akzeptabel gute Maße für die Größe der zu erhalten Monte-Carlo-Fehler sind tatsächlich. $\hat\theta(Y)$ $\hat\theta(Y^*)$

Das Anpassen eines Regressionsmodells, z. B. tausendmal, ist (heute) keine große Sache, weder in Bezug auf die CPU-Zeit noch in Bezug auf den Codierungsaufwand.

Im Gegensatz dazu kann die numerische Integration (mit Ausnahme der Monte-Carlo-Methoden) schwierig zu codieren sein. Sie müssen beispielsweise entscheiden, wie der Probenraum aufgeteilt werden soll, was keine triviale Aufgabe ist. Diese Methoden liefern auch keine Diagnose, und die Genauigkeit, mit der sie das wahre Integral schätzen, ist notorisch schwer zu beurteilen.

Um das meiste zu tun, was der Bootstrap tut, aber schneller, werfen Sie einen Blick auf die verallgemeinerte Methode der Momente. Für Rückschlüsse auf der Grundlage von Regressionsmodellen (und vielem mehr) können Sie sich das als schnelle, genaue Annäherung an das nicht parametrische Bootstrap vorstellen Würde geben.

— Gast
quelle

Vielen Dank. Da Schritt 2 ziemlich gut gehandhabt wird, bin ich neugierig, ob GMM oder eine andere Technik die Ungenauigkeit in Schritt 1 beheben kann (wo wir die Varianz der wahren Verteilung mit der Varianz der empirischen Verteilung schätzen)?

— Max

"Plain Vanilla" GMM verwendet ziemlich einfache Annäherungen an die wahre Kovarianz. Die Verwendung von Näherungen höherer Ordnung (Sattelpunktnäherungen und dergleichen) kann verwendet werden, aber Sie müssten sie selbst codieren und möglicherweise etwas stärkere Annahmen als bei typischen GMM treffen, um sicherzustellen, dass Sie die "beste" Näherung erhalten.

— Gast

3

Die beim Bootstrapping am häufigsten verwendete Simulation zur numerischen Berechnung der Varianz könnte prinzipiell durch eine exakte Berechnung oder eine alternative Approximation des Integrals ersetzt werden. Man sollte sich jedoch bewusst sein, dass eine "Brute-Force" -Simulation als Alternative zu anderen numerischen Integrationstechniken tatsächlich eine gute Idee ist. Die Antwort auf die Frage "Würde dies nicht zu einer viel höheren Genauigkeit bei gleicher Rechenzeit führen?" ist nein .

Aber warum ist das so? Die Sache ist, dass die numerische Standardintegration in hohen Dimensionen schlecht mit der Dimension skaliert. Wenn Sie den Raum in reguläre Gitterpunkte unterteilen möchten, z. B. mit Gitterpunkten in jeder Koordinate, erhalten Sie insgesamt Gitterpunkte. Die durch Simulation erreichte Annäherung (bekannt als Monte-Carlo-Integration) kann als eine clevere Auswahl von Funktionsbewertungen angesehen werden. Anstelle zeitaufwändiger Rasterauswertungen bewerten wir nur die Funktion, die wir an ausgewählten Punkten integrieren. Der Fehler ist aufgrund der Zufälligkeit der ausgewählten Punkte zufällig, kann jedoch normalerweise durch den zentralen Grenzwertsatz gesteuert werden. $r$ $r^n$

Es gibt andere Methoden wie die Quasi-Monte-Carlo-Integration, von denen ich so gut wie nichts weiß, die clevere Funktionsbewertungen basierend auf Quasi-Zufallszahlen anstelle der Pseudozufallszahlen durchführen, die wir für die normale Monte-Carlo-Integration verwenden.

— NRH
quelle