Warum nicht immer Bootstrap-CIs verwenden?


12

Ich habe mich gefragt, wie Bootstrap-CIs (und insbesondere BCa) bei normal verteilten Daten funktionieren. Es scheint eine Menge Arbeit zu geben, um ihre Leistung bei verschiedenen Arten von Verteilungen zu untersuchen, aber bei normal verteilten Daten konnte nichts gefunden werden. Da es naheliegend erscheint, zuerst zu lernen, sind die Papiere wohl einfach zu alt.

Ich habe einige Monte-Carlo-Simulationen mit dem R-Boot-Paket durchgeführt und festgestellt, dass die Bootstrap-CIs mit den exakten CIs übereinstimmen, obwohl sie für kleine Stichproben (N <20) tendenziell etwas liberal sind (kleinere CIs). Für ausreichend große Proben sind sie im Wesentlichen gleich.

Ich frage mich daher, ob es einen guten Grund gibt, nicht immer Bootstrapping zu verwenden. Angesichts der Schwierigkeit, zu beurteilen, ob eine Verteilung normal ist, und der vielen Tücken dahinter, erscheint es vernünftig, Bootstrap-CIs unabhängig von der Verteilung nicht zu entscheiden und zu melden. Ich verstehe die Motivation, nicht-parametrische Tests nicht systematisch zu verwenden, da sie weniger Leistung haben, aber meine Simulationen zeigen, dass dies bei Bootstrap-CIs nicht der Fall ist. Sie sind noch kleiner.

Eine ähnliche Frage, die mich stört, ist, warum man nicht immer den Median als Maß für die zentrale Tendenz verwendet. Es wird häufig empfohlen, nicht normalverteilte Daten damit zu charakterisieren. Da der Median jedoch mit dem Mittelwert für normalverteilte Daten identisch ist, warum dann eine Unterscheidung treffen? Es wäre sehr vorteilhaft, wenn wir die Prozeduren für die Entscheidung, ob eine Verteilung normal ist oder nicht, loswerden könnten.

Ich bin sehr gespannt auf Ihre Gedanken zu diesen Themen und darauf, ob sie bereits diskutiert wurden. Referenzen würden sehr geschätzt.

Vielen Dank!

Pierre


Siehe meine Frage hier in Bezug auf Mittelwert und Median: stats.stackexchange.com/questions/96371/…
Alexis

Für viele Probleme ist ein erneutes Abtasten rechnerisch nicht durchführbar. Zum Beispiel, wenn Sie einfach CIs für eine große 3D-Matrix oder für eine lange Zeitreihe berechnen möchten.
Jona

Antworten:


4

Es ist von Vorteil, die Motivation für das BCa-Intervall und seine Mechanismen (dh die sogenannten "Korrekturfaktoren") zu betrachten. Die BCa-Intervalle sind einer der wichtigsten Aspekte des Bootstraps, da sie der allgemeinere Fall der Bootstrap-Perzentilintervalle sind (dh das Konfidenzintervall, das ausschließlich auf der Bootstrap-Verteilung selbst basiert).

Betrachten Sie insbesondere die Beziehung zwischen den BCa-Intervallen und den Bootstrap-Perzentilintervallen: Wenn die Anpassung für die Beschleunigung (der erste "Korrekturfaktor") und die Schiefe (der zweite "Korrekturfaktor") beide Null sind, werden die BCa-Intervalle auf zurückgesetzt Das typische Bootstrap-Perzentilintervall.

Ich denke nicht, dass es eine gute Idee wäre, IMMER Bootstrapping zu verwenden. Bootstrapping ist eine robuste Technik, die eine Vielzahl von Mechanismen (z. B. Konfidenzintervalle und unterschiedliche Variationen des Bootstraps für verschiedene Arten von Problemen, z. B. den Wild-Bootstrap bei heteroskedastischer Ausprägung) zur Anpassung an verschiedene Probleme (z. B. Nicht-Normalität) aufweist ), aber es beruht auf einer entscheidenden Annahme: Die Daten geben die wahre Bevölkerung genau wieder.

Diese Annahme ist zwar von Natur aus einfach, kann jedoch schwierig zu überprüfen sein, insbesondere im Zusammenhang mit kleinen Stichprobengrößen (es könnte jedoch sein, dass eine kleine Stichprobe die wahre Population genau widerspiegelt!). Wenn das ursprüngliche Beispiel, für das die Bootstrap-Verteilung (und damit alle daraus resultierenden Ergebnisse) nicht ausreichend genau ist, sind Ihre Ergebnisse (und damit Ihre auf diesen Ergebnissen basierende Entscheidung) fehlerhaft.

SCHLUSSFOLGERUNG: Der Bootstrap ist sehr vieldeutig, und Sie sollten vorsichtig sein, bevor Sie ihn anwenden.


2
"Wenn das ursprüngliche Beispiel, für das die Bootstrap-Verteilung (und damit alle daraus resultierenden Ergebnisse) nicht ausreichend genau ist, sind Ihre Ergebnisse (und damit Ihre auf diesen Ergebnissen basierende Entscheidung) fehlerhaft." -> aber schneidet das Bootstrap-CI in diesen Fällen schlechter ab als die analytische Alternative?
Jona

3
Die Annahme, dass die Daten die Grundgesamtheit angemessen repräsentieren, ist nicht ausschließlich auf das Bootstrapping beschränkt: Sie bezieht sich im Allgemeinen auf Statistiken. Wenn die Daten also unzulänglich sind, sind alle Schlussfolgerungen, Bootstrap-Schlussfolgerungen oder andere, die gemacht wurden, irreführend (eine falsche Annahme impliziert eine Fazit!).
mmmmmmmmmm

4
Diese Einschränkung bezieht sich also nicht auf den Bootstrap, sondern auf die Schlussfolgerung und ist kein Argument gegen die Verwendung des Bootstraps gegenüber einer anderen Methode, sondern darauf, absolut auf fehlbare Methoden zu vertrauen. Ich verstehe dann nicht, wie wichtig das in diesem Zusammenhang ist.
Jona

Entschuldigung, ein bisschen zu spät in diesem Thread ... @ jona: Wäre das nicht relevant, weil Bootstrapping das Sample weiter verstärkt? Wenn Ihre Stichprobe eine unglückliche Falschdarstellung der Bevölkerung ist, würde Sie die Verwendung von Bootstrapping noch weiter vom Bevölkerungszentrum entfernen? Ist das nicht ein mögliches Argument gegen ein systematisches Bootstrapping?
Sisdog
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.