Nachdem ich kürzlich Bootstrap studiert hatte, stellte ich mir eine konzeptionelle Frage, die mich immer noch verwirrt:
Sie haben eine Population und möchten ein Populationsattribut kennen, dh , wobei ich P verwende, um die Population darzustellen. Dies θ könnte beispielsweise ein Populationsmittelwert sein. Normalerweise können Sie nicht alle Daten aus der Bevölkerung abrufen. Sie ziehen also eine Stichprobe X der Größe N aus der Grundgesamtheit. Angenommen, Sie haben der Einfachheit halber iid sample. Dann erhalten Sie Ihre Schätzer θ = g ( X ) . Sie verwenden möchten θ machen Schlüssen θ , so dass Sie die Variabilität wissen möchten .
Erstens gibt es eine wahre Stichprobenverteilung von θ . Konzeptionell könnten Sie viele Stichproben (jede hat die Größe N ) aus der Grundgesamtheit ziehen. Jedes Mal haben Sie eine Realisierung von θ = g ( X ) , da jedes Mal haben Sie eine andere Probe. Dann am Ende, werden Sie in der Lage sein , die sich zu erholen wahre Verteilung von θ . Ok, das zumindest der konzeptuelle Maßstab zur Abschätzung der Verteilung von θ . Lassen Sie es mich noch einmal wiederholen: Das ultimative Ziel besteht darin, verschiedene Methoden zu verwenden, um die wahre Verteilung von zu schätzen oder zu approximieren .
Nun kommt hier die Frage. Normalerweise haben Sie nur ein Beispiel , das N Datenpunkte enthält . Dann sampeln Sie aus dieser Probe viele Male, und Sie werden mit einer Bootstrap - Verteilung kommen θ . Meine Frage ist: Wie nah ist die Bootstrap - Verteilung an die wahren Verteilung des Stichprobe θ ? Gibt es eine Möglichkeit, es zu quantifizieren?