Gibt es ein Ergebnis, das angibt, dass der Bootstrap nur dann gültig ist, wenn die Statistik glatt ist?


25

Wir gehen davon aus, dass unsere Statistik eine Funktion einiger Daten ist, die aus der Verteilungsfunktion . Die empirische Verteilungsfunktion unserer Stichprobe ist . So ist die Statistik als Zufallsvariable betrachtet und wird die Bootstrap - Version der Statistik. Wir verwenden als KS-AbstandX 1 , ... X n F F θ ( F ) θ ( F ) d θ()X1,XnFF^θ(F)θ(F^)d

Es gibt "wenn und nur wenn" Ergebnisse für die Gültigkeit des Bootstraps, wenn die Statistik eine einfache lineare Statistik ist. Zum Beispiel Satz 1 von Mammen "Wann funktioniert der Bootstrap?"

Wenn für eine beliebige Funktion dann funktioniert der Bootstrap in dem Sinne, dass if and nur wenn es und so dass Wobei wir als eine Funktion unserer Stichprobe definieren können undhnd[L(θ( F ) - t n),L(θ(F)-tn)]p0σntnd[L(θ(F)-tn)θ(F)=1ni1nhn(Xi)hn

d[L(θ(F^)t^n),L(θ(F)tn)]p0
σntn^ t n t n = E ( t n )
d[L(θ(F)tn),N(0,σn2)]p0
tn^tn=E(t^n)

Es gibt auch allgemeinere Ergebnisse, die der Bootstrap für allgemeine Statistiken verwendet, zum Beispiel Satz 1.6.3 aus Subsampling von Politis Romano und Wolf:

Angenommen, F wird aus der Klasse aller Verteilungen mit endlicher Unterstützung gezogen. Angenommen, die Statistik θ() ist Frechet, das bei F in Bezug auf die Oberste Norm differenzierbar ist, und die Ableitung g_FgF erfüllt 0<VarF[gF(x)]< . Dann ist θ(F) asymptotisch normal und der Bootstrap funktioniert im Sinne des vorhergehenden Satzes.

Ich möchte eine "wenn und nur wenn" -Version des zweiten Theorems. Dies erfordert einen Begriff der Glätte, der sich von der Differenzierbarkeit nach Frechet unterscheidet, da Politis, Romano und Wolf (1999) zeigen, dass der Stichprobenmedian nicht nach Frechet differenzierbar ist, der Bootstrap jedoch weiterhin funktioniert. Der Stichprobenmedian ist jedoch immer noch eine glatte Funktion der Daten.

Es gibt einige informelle Kommentare in Mammen, dass Geschmeidigkeit notwendig ist:

Typischerweise scheint eine lokale asymptotische Linearität für die Konsistenz des Bootstraps notwendig zu sein

Das Zitat lautet:

van Zwet, W. (1989). Vortrag auf der Konferenz "Asymptotische Methoden für computerintensive Verfahren in der Statistik" in Olberwolfach.

Aber ich kann keine Spur von diesem Vortrag finden, abgesehen von ein paar Zitaten.


1
Exzellentes Thema. Ist es richtig, dass alle zitierten Ergebnisse für Stichprobengrößen bis unendlich asymptotisch sind?
Michael M

3
@Michael Danke und ja, alles ist asymptotisch wie . Im Übrigen gibt es einige neuere Arbeiten mit Ergebnissen für endliche Stichproben (z. B. arxiv.org/pdf/1212.6906.pdf ), die jedoch sehr technisch sind. n
ORIZON

1
Kompliziertes Thema. Einige sagen, dass Bootstrap im Allgemeinen nicht funktioniert . van Zwer et al. sagt man muss aufpassen was gebootet wird . Ich denke, man muss erst festlegen, was gebootet werden soll und was nicht, bevor weitere Tests durchgeführt werden können.
Carl

Jetzt habe ich die Antwort als Antwort auf Mammes Kommentar aktualisiert und hoffe, dass sich Ihre Verwirrung weiter bessert. Und wenn Sie möchten, können Sie ein wenig über die Anwendung erklären, die Sie dazu motiviert, nach der Notwendigkeit zu fragen. Das wird mir helfen, meine Antwort zu verbessern.
Henry.L

Antworten:


12

(1) Warum sind Quantilschätzer nicht Frechet-differenzierbar, aber ihr Bootstrap-Schätzer ist immer noch konsistent?

Sie benötigen die Hadamard-Differenzierbarkeit (oder die kompakte Differenzierbarkeit in Abhängigkeit von Ihrer Referenzquelle) als ausreichende Bedingung, damit in diesem Fall der Bootstrap funktioniert. Der Median und jedes Quantil ist nach Hadamard differenzierbar. Die Differenzierbarkeit von Bruchstücken ist in den meisten Anwendungen zu stark.

Da es normalerweise ausreicht, einen polnischen Raum zu diskutieren, möchten Sie, dass eine lokal lineare Funktion ein typisches Kompaktheitsargument anwendet, um Ihr Konsistenzergebnis auf die globale Situation auszudehnen. Siehe auch den Kommentar zur Linearisierung weiter unten.

Satz 2.27 von [Wasserman] gibt Ihnen eine Vorstellung davon, wie das Hadamard-Derivat eine schwächere Vorstellung ist. Und Theorem 3.6 und 3.7 von [Shao & Tu] geben ausreichende Bedingungen für eine schwache Konsistenz hinsichtlich der Hadamard-Differenzierbarkeit der statistischen Funktion mit der Beobachtungsgröße .T n nρTnn

(2) Was beeinflusst die Konsistenz von Bootstrap-Schätzern?

[Shao & Tu] S. 85-86 veranschaulichten Situationen, in denen Inkonsistenzen von Bootstrap-Schätzern auftreten können.

(1) Der Bootstrap ist empfindlich gegenüber dem Schwanz Verhalten der Bevölkerung . Die Konsistenz von erfordert Momentbedingungen, die strenger sind als diejenigen, die für die Existenz der Grenze von erforderlich sind .H B O O T H 0FHBOOTH0

(2) Die Konsistenz des Bootstrap Estimators erfordert einen gewissen Grad an Glätte aus der gegebenen Statistik (funktional) .Tn

(3) Das Verhalten des Bootstrap-Schätzers hängt manchmal von der Methode ab, mit der Bootstrap-Daten abgerufen werden.

Und in Abschnitt 3.5.2 von [Shao & Tu] haben sie das Quantilbeispiel mit einem Glättungskern überarbeitet . Beachten Sie, dass Momente lineare Funktionale sind. Das Zitat in Ihrer Frage "Typischerweise scheint eine lokale asymptotische Linearität für die Konsistenz des Bootstraps erforderlich zu sein" erfordert ein gewisses Maß an Analytizität des Funktionalen. Dies kann erforderlich sein, da Sie bei einem Fehlschlagen einen pathologischen Fall erstellen können wie die Weierstraß-Funktion (die kontinuierlich und doch nirgends differenzierbar ist).K

(3) Warum erscheint lokale Linearität notwendig, um die Konsistenz des Bootstrap sicherzustellen?

In Bezug auf den Kommentar "Typischerweise scheint eine lokale asymptotische Linearität für die Konsistenz des Bootstraps erforderlich zu sein", den Mammen, wie Sie erwähnt haben, gemacht hat. Ein Kommentar von [Shao & Tu] S.78 lautet wie folgt, da sie kommentierten, dass die (globale) Linearisierung nur eine Technik ist, die den Nachweis der Konsistenz erleichtert und keine Notwendigkeit anzeigt:

Die Linearisierung ist eine weitere wichtige Technik zum Nachweis der Konsistenz von Bootstrap-Schätzern, da Ergebnisse für lineare Statistiken häufig verfügbar sind oder unter Verwendung der zuvor eingeführten Techniken ermittelt werden können. Angenommen, eine gegebene Statistik Tn kann durch eine lineare Zufallsvariable angenähert werden (wobei ist eine lineare Statistik in ), dh (3.19) Sei und sind die Bootstrap-Analoga von und , basierend auf dem Bootstrap-BeispielZn¯=1nich=1nϕ(Xn)ϕ(X)X

Tn=θ+Zn¯+OP(1n)
TnZn¯TnZn¯{X1,,Xn} . Wenn wir ein Ergebnis für ähnlich (3.19) ermitteln können, dh (3.20) dann die Grenze von (wobei der Wert des Parameters ist) ist das gleiche wie die von .we hat somit das Problem zu einem Problem im Zusammenhang mit einem reduzierten "sample mean" , dessen Bootstrap-Verteilungsschätzer mit den Methoden in den Abschnitten 3.1.2-3.1.4 als konsistent gezeigt werden kann.Tn
Tn=θ+Zn¯+OP(1n)
HBOOT(x)xP{=P{n(Tn-Tn)x} ¯ Z nP{n(Zn¯-Zn¯)x}Zn¯

Und sie gaben ein Beispiel 3.3 zum Abrufen der Bootstrap-Konsistenz für MLE-Typ-Bootstrapping. Wenn jedoch die globale Linearität auf diese Weise wirksam ist, ist es schwer vorstellbar, wie man Konsistenz ohne lokale Linearität beweisen würde. Das wollte Mammen wohl sagen.

(4) Weitere Kommentare

Abgesehen von der obigen Diskussion von [Shao & Tu] denke ich, dass Sie eine Charakterisierungsbedingung für die Konsistenz von Bootstrap-Schätzern wollen.

Leider kenne ich keine Charakterisierung der Konsistenz eines Bootstrap-Schätzers für eine sehr allgemeine Verteilungsklasse in . M(X)Selbst wenn es eine gibt, ist meiner Meinung nach nicht nur die Glätte vonerforderlich. Es gibt jedoch eine Charakterisierung für eine bestimmte Klasse statistischer Modelle wie dieKlasse in [Gine & Zinn]; oder allgemein kompakt unterstützte Klasse (direkt aus der obigen Diskussion), die über einem polnischen Raum definiert ist.CLTTCLT

Außerdem ist die Kolmogorov-Smirnov-Distanz nach meinem Geschmack die falsche Distanz, wenn unser Fokus auf der klassischen Asymptotik liegt (im Gegensatz zur "einheitlichen" Asymptotik für empirische Prozesse). Da der KS-Abstand nicht die schwache Topologie induziert, die ein natürlicher Grund für die Untersuchung des asymptotischen Verhaltens ist, wird die schwache Topologie auf dem Raum durch den von [Huber] angenommenen begrenzten Lipschitz-Abstand (OR-Prohorov-Levy-Abstand) induziert. und viele andere Autoren, wenn der Fokus nicht auf empirischen Prozessen liegt. Manchmal beinhaltet die Diskussion des einschränkenden Verhaltens empirischer Prozesse auch eine BL-Distanz wie [Gine & Zinn].M(X)

Ich hasse es, zynisch zu sein, aber ich habe immer noch das Gefühl, dass dies nicht die einzige statistische Schrift ist, die "aus dem Nichts zitiert". Wenn ich das sage, finde ich das Zitieren von van Zwets Vortrag einfach sehr verantwortungslos, obwohl van Zwet ein großartiger Gelehrter ist.

Referenz

[Wasserman] Wasserman, Larry. All of Nonparametric Statistics, Springer, 2010.

[Shao & Tu] Shao, Jun und Dongsheng Tu. Das Klappmesser und der Stiefelriemen. Springer, 1995.

[Gine & Zinn] Giné, Evarist und Joel Zinn. "Bootstrapping allgemeine empirische Maßnahmen." Die Annalen der Wahrscheinlichkeit (1990): 851-869.

[Huber] Huber, Peter J. Robuste Statistik. Wiley, 1985.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.