Warum nicht den Mittelwert einer Bootstrap-Verteilung melden?


29

Wenn ein Parameter gebootet wird, um den Standardfehler zu erhalten, erhalten wir eine Verteilung des Parameters. Warum verwenden wir nicht den Mittelwert dieser Verteilung als Ergebnis oder Schätzung für den Parameter, den wir erhalten möchten? Sollte sich die Verteilung nicht der tatsächlichen annähern? Daher würden wir eine gute Schätzung des "realen" Wertes bekommen? Wir geben jedoch den ursprünglichen Parameter an, den wir aus unserer Stichprobe erhalten haben. Warum das?

Vielen Dank

Antworten:


24

Denn die Bootstrapped-Statistik ist eine weitere Abstraktion von Ihrem Populationsparameter entfernt. Sie haben Ihren Populationsparameter, Ihre Beispielstatistik und nur auf der dritten Ebene haben Sie den Bootstrap. Der bootstrapped Mittelwert ist kein besserer Schätzer für Ihren Populationsparameter. Es ist nur eine Schätzung einer Schätzung.

Da zentriert sich die Bootstrap-Verteilung mit allen möglichen Bootstrap-Kombinationen um die Stichprobenstatistik, ähnlich wie die Stichprobenstatistik um den Populationsparameter unter denselben Bedingungen. Dieses Papier hier fasst diese Dinge ganz gut zusammen und es ist eines der einfachsten, das ich finden konnte. Ausführlichere Beweise finden Sie in den Papieren, auf die verwiesen wird. Bemerkenswerte Beispiele sind Efron (1979)n und Singh (1981)

θBθ^θ^θ


13

Es gibt zumindest in einem Fall , wo die Menschen sich den Mittelwert der Bootstrap - Verteilung verwenden: Absackung (kurz für Bagging ).

Die Grundidee ist, dass, wenn Ihr Schätzer sehr empfindlich auf Störungen in den Daten reagiert (dh der Schätzer hat eine hohe Varianz und eine geringe Verzerrung), Sie über viele Bootstrap-Stichproben mitteln können, um die Anzahl der Überanpassungen bestimmter Beispiele zu verringern.

Die Seite, auf die ich verlinkt habe, weist darauf hin, dass dies zu einer gewissen Verzerrung Ihrer Schätzung führt, weshalb der Stichprobenmittelwert oft sinnvoller ist als die Mittelung Ihrer Bootstrap-Stichproben. Wenn Sie jedoch einen Entscheidungsbaum oder einen Klassifikator für den nächsten Nachbarn haben, der sich als Reaktion auf kleine Änderungen der Daten radikal ändern kann, ist diese Verzerrung möglicherweise nicht so problematisch wie eine Überanpassung.


1
Ich bin mir nicht sicher, ob ich deine Frage verstehe. Ich habe eigentlich nicht verwenden den Begriff „Bias eines Parameters.“ Ich bin mir auch nicht ganz sicher, was du damit meinsty gegen θin diesem Zusammenhang.
David J. Harris

Ich sehe normalerweise Absacken, um die Varianz der Schätzungen für die Antwort (dh die Empfindlichkeit gegenüber Schwankungen der Daten) zu verringern. Die am häufigsten eingesackten Modelle (z. B. Bäume) haben normalerweise keine genau definierten Parameter, die über Bootstrap-Beispiele hinweg leicht verglichen werden können.
David J. Harris

Danke, genau das habe ich mir auch gedacht. Für mich scheint das Absacken für nichts anderes als die Schätzung einer Antwort viel Sinn zu machen, daher ist es in diesem Sinne begrenzt.
Momo

10

Es ist erwähnenswert, dass die Differenz zwischen dem Mittelwert der Bootstrap-Samples θB und die Stichprobenschätzung θ^ kann manchmal als Schätzung des Bias von verwendet werden θ^ bei der Schätzung des wahren Parameters θ.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.