Bootstrap: Die Schätzung liegt außerhalb des Konfidenzintervalls

Ich habe ein Bootstrapping mit einem gemischten Modell durchgeführt (mehrere Variablen mit Interaktion und eine Zufallsvariable). Ich habe dieses Ergebnis erhalten (nur teilweise):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Jetzt wollte ich die Konfidenzintervalle für den Abschnitt erhalten:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

Die geschätzte vorspannungskorrigierte Schätzung ist:

48,873 -1,677
1 47,196

Das Problem, das ich habe, ist, dass der normale und der grundlegende CI außerhalb der Schätzung liegen (ursprünglich und korrigiert). Ich frage mich nur, wie ich damit umgehen soll.

Update 1:
Hier sind ähnliche Fragen mit vielen Antworten.

r confidence-interval bootstrap bias

— Giordano
quelle

Nur ein Kommentar: Efron & Tibshirani (1993) im klassischen Buch argumentierten eher gegen eine Bias-Korrektur und sagten, es sei eine "gefährliche" und "problematische" Praxis, die zu einem erhöhten Standardfehler führen könnte.

— Tim

@ Tim Danke für deinen Kommentar. Ich werde mir das Buch ansehen. Möglicherweise besteht eine Lösung darin, die Schätzungen und den Bootstrap se * zu verwenden, um die Konfidenzintervalle zu berechnen. In meinem Fall wirkt sich die Verzerrung nur geringfügig auf die Schätzungen aus.

— Giordano

Die Schwierigkeit, mit der Sie konfrontiert sind, liegt in der impliziten Mathematik. Ein Standortschätzer oder ein Intervallschätzer kann als Minimierung einer Kostenfunktion über eine Verteilung betrachtet werden. Der Stichprobenmittelwert über dem Gaußschen minimiert den quadratischen Verlust, während der Median die absolute lineare Verlustfunktion über dem Gaußschen minimiert. Obwohl sie sich in der Bevölkerung am selben Punkt befinden, werden sie mithilfe verschiedener Kostenfunktionen entdeckt.

Wir geben Ihnen einen Algorithmus und sagen "Mach das", aber bevor der Algorithmus entwickelt wurde, hat jemand ein Optimierungsproblem gelöst.

Sie haben vier verschiedene Kostenfunktionen angewendet, die Ihnen drei Intervalle und einen Punktschätzer geben. Da die Kostenfunktionen unterschiedlich sind, bieten sie Ihnen unterschiedliche Punkte und Intervalle. Es gibt nichts zu tun, außer die Methodik manuell zu vereinheitlichen.

Sie müssen die zugrunde liegenden Dokumente finden und sich den zugrunde liegenden Code ansehen, um zu verstehen, welche auf welche Arten von Problemen abgebildet werden.

Tut mir leid, das zu sagen, aber Sie wurden von der Software verraten. Es hat seinen Job gemacht, und im Durchschnitt funktioniert das großartig, aber Sie haben das Beispiel erhalten, in dem die Software nicht funktioniert. Oder besser gesagt, es funktioniert perfekt und Sie müssen sich tatsächlich rückwärts durch die Literatur arbeiten, um festzustellen, was es wirklich tut.

— Dave Harris
quelle

Vielen Dank, dass es seinen Job gemacht hat, und im Durchschnitt funktioniert das großartig, aber Sie haben das Beispiel, in dem die Software nicht funktioniert, und die anderen Erkenntnisse. In der Tat ist das Beispiel seltsam, deshalb wollte ich Bootsstrap verwenden, um CI zu berechnen. Offensichtlich scheint diese Methode nicht so einfach zu sein, wie es scheint.

— Giordano