Kann Bootstrap-Resampling verwendet werden, um ein Konfidenzintervall für die Varianz eines Datensatzes zu berechnen?


9

Ich weiß, dass, wenn Sie mehrmals aus einem Datensatz eine neue Stichprobe erstellen und jedes Mal den Mittelwert berechnen, diese Mittelwerte einer Normalverteilung (durch die CLT) folgen. Auf diese Weise können Sie ein Konfidenzintervall für den Mittelwert des Datensatzes berechnen, ohne Annahmen über die Wahrscheinlichkeitsverteilung des Datensatzes zu treffen.

Ich habe mich gefragt, ob Sie etwas Ähnliches für die Varianz tun könnten. Das heißt, wenn ich viele Male aus einem Datensatz eine neue Stichprobe erstellen und die Varianz jedes Mal berechnen würde, würden diese Varianzen einer bestimmten Verteilung folgen (unabhängig von der ursprünglichen Wahrscheinlichkeitsverteilung des Datensatzes)?

Ich weiß, dass wenn dieser ursprüngliche Datensatz normal ist, die Varianzen einer Chi-Quadrat-Verteilung folgen würden. Aber was ist mit dem Fall, dass es nicht normal ist?

Antworten:


10

Kann Bootstrap Resampling verwendet werden, um ein Konfidenzintervall für die Varianz eines Datensatzes zu berechnen?

Ja, genau wie bei vielen anderen Statistiken.

Ich weiß, dass, wenn Sie mehrmals aus einem Datensatz eine neue Stichprobe erstellen und jedes Mal den Mittelwert berechnen, diese Mittelwerte einer Normalverteilung (durch die CLT) folgen.

Es ist nicht immer der Fall, dass beim Bootstrap eines Mittelwerts das Bootstrap-Mittel einer Normalverteilung folgt, selbst für Verteilungen, für die das CLT gilt.

Hier ist ein Beispiel, in dem ich den Mittelwert für eine Stichprobe der Größe abgetastet habe, wobei ich 10000 Mal neu abgetastet habe:n=100

Geben Sie hier die Bildbeschreibung ein

Es ist nicht im entferntesten normal.

Die ursprüngliche Stichprobe besteht aus siebenundneunzig '0'-Werten und einer' 1 ', einer' 2 'und einer' 100 '.

Hier ist der (R) Code, den ich ausgeführt habe, um den obigen Plot zu generieren:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Das Problem ist, dass in diesem Fall die Stichprobengröße (100) zu klein ist, als dass die CLT diese Art von Verteilungsform anwenden könnte. Es spielt keine Rolle, wie oft wir es erneut abtasten.

Wenn jedoch die ursprüngliche Stichprobengröße viel größer ist, sieht die Neuabtastungsverteilung der Stichprobenmittel für so etwas normaler aus (wenn auch immer diskret).

Hier sind die ecdfs beim erneuten Abtasten der obigen Daten (schwarz) und für Werte in denselben Proportionen, jedoch mit zehnmal so vielen Werten (rot; dh n = 1000):

Geben Sie hier die Bildbeschreibung ein

Wie wir sehen, sieht die Verteilungsfunktion beim erneuten Abtasten der großen Stichprobe viel normaler aus.

Wenn ich viele Male eine neue Stichprobe aus einem Datensatz erstellen und die Varianz jedes Mal berechnen würde, würden diese Varianzen einer bestimmten Verteilung folgen

Nein, aus dem gleichen Grund gilt dies nicht unbedingt für den Mittelwert.

Die CLT gilt jedoch auch für die Varianz *; Es ist nur so, dass Sie nicht behaupten können, dass das CLT für das Bootstrap-Resampling gilt, indem Sie einfach viele Resamples erstellen. Wenn die ursprüngliche Stichprobengröße ausreichend groß ist, kann dies (unter den richtigen Bedingungen) dazu führen, dass die Neuabtastungsverteilung von Mitteln (und höheren Momenten, falls vorhanden) relativ nahe an einer Normalverteilung liegt (relativ zu ihrer Verteilung in kleineren Stichproben, bei am wenigsten).

* dass die CLT normalerweise für die Varianz gilt (vorausgesetzt, es liegen geeignete Momente vor), ist intuitiv, wenn Sie . Sei ; dann ist . Wenn also die CLT für die Variable gilt, kann sie auf angewendet werden . Jetzt ist nur eine skalierte Version von ; Wenn die CLT für gilt, gilt sie für . Dieser Umriss eines Arguments ist jedoch nicht vollständig und es gibt einige Ausnahmen, die Sie zunächst möglicherweise nicht erwarten.sn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯ysn2sn12sn2sn2sn12

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.