Wie gut nähert sich Bootstrapping der Stichprobenverteilung eines Schätzers an?


29

Nachdem ich kürzlich Bootstrap studiert hatte, stellte ich mir eine konzeptionelle Frage, die mich immer noch verwirrt:

Sie haben eine Population und möchten ein Populationsattribut kennen, dh , wobei ich P verwende, um die Population darzustellen. Dies θ könnte beispielsweise ein Populationsmittelwert sein. Normalerweise können Sie nicht alle Daten aus der Bevölkerung abrufen. Sie ziehen also eine Stichprobe X der Größe N aus der Grundgesamtheit. Angenommen, Sie haben der Einfachheit halber iid sample. Dann erhalten Sie Ihre Schätzer θ = g ( X ) . Sie verwenden möchten θ machen Schlüssen θ , so dass Sie die Variabilität wissen möchten θ=g(P)PθXNθ^=g(X)θ^θ .θ^

Erstens gibt es eine wahre Stichprobenverteilung von θ . Konzeptionell könnten Sie viele Stichproben (jede hat die Größe N ) aus der Grundgesamtheit ziehen. Jedes Mal haben Sie eine Realisierung von θ = g ( X ) , da jedes Mal haben Sie eine andere Probe. Dann am Ende, werden Sie in der Lage sein , die sich zu erholen wahre Verteilung von θ . Ok, das zumindest der konzeptuelle Maßstab zur Abschätzung der Verteilung von θ . Lassen Sie es mich noch einmal wiederholen: Das ultimative Ziel besteht darin, verschiedene Methoden zu verwenden, um die wahre Verteilung von zu schätzen oder zu approximierenθ^Nθ^=g(X)θ^θ^ .θ^

Nun kommt hier die Frage. Normalerweise haben Sie nur ein Beispiel , das N Datenpunkte enthält . Dann sampeln Sie aus dieser Probe viele Male, und Sie werden mit einer Bootstrap - Verteilung kommen θ . Meine Frage ist: Wie nah ist die Bootstrap - Verteilung an die wahren Verteilung des Stichprobe θ ? Gibt es eine Möglichkeit, es zu quantifizieren?XNθ^θ^


1
Diese in hohem Maße verwandte Frage enthält eine Fülle zusätzlicher Informationen, die möglicherweise zu einem Duplikat dieser Frage führen.
Xi'an,

Zunächst danke ich Ihnen allen, dass Sie meine Fragen so schnell beantwortet haben. Dies ist das erste Mal, dass ich diese Website benutze. Ich hätte nie gedacht, dass meine Frage die Aufmerksamkeit eines Menschen auf sich zieht. Ich habe hier eine kleine Frage, was ist "OP"? @ Silverfish
KevinKim

@Chen Jin: "OP" = Originalplakat (dh du!). Entschuldigungen für die Verwendung einer Abkürzung, die ich akzeptiere, sind möglicherweise verwirrend.
Silverfish

1
θ^

@ Silverfish Vielen Dank. Wenn ich dieses Poster starte, bin ich mir meiner Frage nicht ganz sicher. Dieser neue Titel ist gut.
KevinKim

Antworten:


20

In der Informationstheorie ist die Verwendung der KL-Divergenz der typische Weg, um zu quantifizieren, wie nahe eine Verteilung an einer anderen liegt

θ^θ^θ^

Hier ist der Datensatz:

Bildbeschreibung hier eingeben

Der wahre Mittelwert liegt bei 7,09 min.

θ^

Betrachten wir zum Beispiel zwei Verteilungen mit einer Stichprobengröße von 100 und 5000 Wiederholungen. Wir sehen visuell, dass diese Verteilungen sehr unterschiedlich sind und die KL-Divergenz 0,48 beträgt.

Bildbeschreibung hier eingeben

Wenn wir jedoch die Stichprobengröße auf 1000 erhöhen, beginnen sie zu konvergieren (KL-Divergenz beträgt 0,11).

Bildbeschreibung hier eingeben

Und wenn die Stichprobengröße 5000 ist, sind sie sehr nahe (KL-Divergenz ist 0,01)

Bildbeschreibung hier eingeben

θ^θ^

Hier ist der R-Code dieses Experiments: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1 und dies zeigt auch, dass für jede gegebene Stichprobengröße (wie z. B. 100) die Bootstap-Abweichung groß und unvermeidbar sein kann.
Amöbe sagt Reinstate Monica

θ^θ^N

NB=10B=10000θ^NBθ^

1
θ^B=10B=100001010000

1
F555FBFB

23

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n)n x
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)g(F^n)

Bildbeschreibung hier eingebenFF^nn=100250FF^n

Weiteres Update: So sieht das Röhrenbild aus, wenn man vom empirischen cdf ausgeht: Bildbeschreibung hier eingeben


5
Der Kern dieser Antwort ist, dass der Bootstrap funktioniert, da es sich um eine Annäherung mit großen Stichproben handelt . Ich denke nicht, dass dieser Punkt genug betont wird
Shadowtalker

2
Ich meine, "im Allgemeinen oft genug betont"
Shadowtalker

F^n=100

3
FnF

@ Xi'an Sehr schön! noch schöner wäre es, wenn die 2. und 3. figur zu einer figur zusammengefasst werden
könnten
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.