Bootstrap-Methode. Warum "mit Ersetzung" anstelle einer zufälligen Unterabtastung erneut abtasten?


11

Die Bootstrap-Methode hat in den letzten Jahren eine große Verbreitung gefunden, ich benutze sie auch häufig, insbesondere weil die Gründe dafür sehr intuitiv sind.

Aber das ist eine Sache, die ich nicht verstehe. Warum hat sich Efron dafür entschieden, ein Resample mit Ersetzen durchzuführen, anstatt einfach ein Subsampling durch zufälliges Einschließen oder Ausschließen einzelner Beobachtungen durchzuführen?

Ich denke, dass zufällige Unterabtastung eine sehr gute Qualität hat, die idealerweise die reale Lebenssituation darstellt, in der die Beobachtungen, die wir in unserer Studie haben, eine Teilmenge einer hypothetischen Population sind. Ich sehe keinen Vorteil darin, Beobachtungen während des Resamplings vervielfacht zu haben. In einem realen Kontext ist keine Beobachtung einer anderen ähnlich, insbesondere in komplexen multivariaten Situationen.


3
Resampling mit Resampling wird durchgeführt, da dies angesichts des Modells das Richtige ist. Das Modell hinter dem Bootstrap besteht darin, die nichtparametrische maximale Wahrscheinlichkeit zur Schätzung der kumulativen Verteilungsfunktion zu verwenden und dann unabhängige Beobachtungen aus der geschätzten kumulativen Verteilungsfunktion abzutasten. Denken Sie darüber nach - algoritmisch, das wird durch Probenahme durch Ersetzen aus der Originalprobe erhalten.
kjetil b halvorsen

Antworten:


10

Eine Möglichkeit, diese Wahl zu verstehen, besteht darin, sich die vorliegende Stichprobe als die beste Darstellung der zugrunde liegenden Population vorzustellen. Möglicherweise haben Sie nicht mehr die gesamte Bevölkerung, aus der Sie eine Stichprobe erstellen können, aber Sie haben diese spezielle Darstellung der Bevölkerung. Eine wirklich zufällige erneute Stichprobe aus dieser Darstellung der Grundgesamtheit bedeutet, dass Sie eine Stichprobe mit Ersatz durchführen müssen, da sonst Ihre spätere Stichprobe von den Ergebnissen Ihrer ersten Stichprobe abhängen würde. Das Vorhandensein eines wiederholten Falls in einer bestimmten Bootstrap-Stichprobe repräsentiert Mitglieder der zugrunde liegenden Population, die Merkmale aufweisen, die denen dieses bestimmten wiederholten Falls nahe kommen. Wie Sie vorschlagen, können auch Leave-One-Out- oder Leave-Multiple-Out-Ansätze verwendet werden. Dies ist jedoch eher eine Kreuzvalidierung als ein Bootstrapping.

Ich denke, das bringt den Kommentar von @kjetil_b_halvorsen so ziemlich in andere Worte


Ich verstehe den Punkt. Einzelne Beobachtungen in einem Bootstrap-Beispiel unabhängig voneinander machen. In der Literatur existieren Methoden, die auf Unterabtastung basieren, siehe Politis, Romano, Wolf. Verwenden Sie eine feste Teilmenge m von n, die ersatzlos gewählt wird. Wie vermeiden sie die Falle, die Sie zuvor gesagt haben? In ihrem Fall verstehe ich wieder nicht, warum sie eine Teilstichprobe fester Größe anstelle einer zufälligen Teilstichprobe verwenden.
Bakaburg

2
Subsampling-Methoden versuchen, etwas anderes als den Bootstrap zu erreichen. Diese Methoden versuchen, zufällige Teilmengen aus der Datenstichprobe auszuwählen, anstatt zu versuchen, eine neue Zufallsstichprobe aus der zugrunde liegenden Grundgesamtheit zu emulieren . Es ist nicht so, dass der eine oder andere falsch ist; Es sind verschiedene Ansätze, die besondere Stärken und Schwächen haben.
EdM

Vielleicht sollte ich eine neue Frage zum Unterschied zwischen den beiden Methoden in der Inferenzstatistik stellen. Vielen Dank!
Bakaburg

@ Bakaburg finden Sie in dieser Frage eine hervorragende Einführung in die Literatur zum Thema Bootstrapping versus Kreuzvalidierung (eine bestimmte Art der Unterabtastung).
EdM

@ Bakaburg Die Bootstrap-Methode simuliert das wiederholte unabhängige Ziehen von Zufallsstichproben der Größe n (keine Teilmenge kleiner als n) aus einer größeren Population. Dies bedeutet, dass es denkbar ist, dass eine Zufallsstichprobe eine große Anzahl extrem kleiner oder großer Werte aus der Elternpopulation enthält, die in unserer ursprünglichen Stichprobe häufig unterrepräsentiert sind. Wie EdM hervorhob, ermöglicht das Resampling mit Ersatz, dass eine einzelne Stichprobenbeobachtung mehrere Beobachtungen in der Population "darstellt", die ähnliche Werte aufweisen - dies ist eine Möglichkeit, eine reibungslose Annäherung an die Populationsverteilung zu erhalten.
RobertF
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.