Ich weiß, dass dies ein ziemlich heißes Thema ist, auf das niemand wirklich eine einfache Antwort geben kann. Trotzdem frage ich mich, ob der folgende Ansatz nicht sinnvoll sein könnte.
Die Bootstrap-Methode ist nur dann nützlich, wenn Ihr Beispiel mehr oder weniger der gleichen Verteilung wie die ursprüngliche Grundgesamtheit entspricht (genau gelesen). Um sicherzugehen, dass dies der Fall ist, müssen Sie Ihre Stichprobe groß genug machen. Aber was ist groß genug?
Wenn meine Prämisse korrekt ist, haben Sie das gleiche Problem, wenn Sie den zentralen Grenzwertsatz zur Bestimmung des Populationsmittelwerts verwenden. Nur wenn Ihre Stichprobe groß genug ist, können Sie sicher sein, dass die Population Ihrer Stichprobenmittelwerte normal verteilt ist (um den Populationsmittelwert). Mit anderen Worten, Ihre Stichproben müssen Ihre Population (Verteilung) gut genug darstellen. Aber was ist groß genug?
In meinem Fall (administrative Prozesse: Zeitaufwand für die Bearbeitung eines Bedarfs im Verhältnis zur Anzahl der Anforderungen) habe ich eine Population mit einer multimodalen Verteilung (alle Anforderungen, die im Jahr 2011 abgeschlossen wurden), von der ich zu 99% sicher bin, dass sie noch geringer ist Normal verteilt als die Bevölkerung (alle Anforderungen, die zwischen dem heutigen Tag und einem Tag in der Vergangenheit erledigt sind, im Idealfall ist diese Zeitspanne so kurz wie möglich), möchte ich untersuchen.
Meine Bevölkerungszahl für 2011 besteht aus genügend Einheiten, um Stichproben mit einer Stichprobengröße von n zu erstellen . Ich wähle einen Wert von x , angenommen 10 ( x = 10 ). Jetzt benutze ich Versuch und Irrtum, um eine gute Stichprobengröße zu bestimmen. Ich nehme ein n = 50 und versuche mit Kolmogorov-Smirnov herauszufinden, ob meine durchschnittliche Stichprobenpopulation normal verteilt ist. Wenn ja, wiederhole ich die gleichen Schritte, aber mit einer Stichprobengröße von 40 , wenn nicht mit einer Stichprobengröße von 60 (usw.).
Nach einer Weile komme ich zu dem Schluss, dass die absolute Mindeststichprobengröße ist, um eine mehr oder weniger gute Darstellung meiner Population von 2011 zu erhalten. Da ich weiß, dass meine interessierende Population (alle Anforderungen, die zwischen dem heutigen Tag und einem Tag in der Vergangenheit erfüllt wurden) eine geringere Varianz aufweist, kann ich sicher eine Stichprobengröße von n = 45 zum Bootstrap verwenden. (Indirekt bestimmt n = 45 die Größe meiner Zeitspanne: Zeit, die benötigt wird, um 45 Anforderungen zu erfüllen.)
Antwort bei der ersten Antwort Vielen Dank für Ihre Antwort, Ihre Antwort war für mich sehr nützlich, insbesondere die Buchlinks.
Ich befürchte jedoch, dass ich bei meinem Versuch, Informationen zu geben, meine Frage völlig verdunkelt habe. Ich weiß, dass die Bootstrap-Samples die Verteilung der Populations-Samples übernehmen. Ich folge dir voll und ganz, aber ...
Ihre ursprüngliche Bevölkerungsstichprobe muss groß genug sein, um mäßig sicher zu sein, dass die Verteilung Ihrer Bevölkerungsstichprobe der „tatsächlichen“ Verteilung der Bevölkerung entspricht (gleich ist).
Hierbei handelt es sich lediglich um eine Idee, wie Sie bestimmen können, wie groß Ihre ursprüngliche Stichprobengröße sein muss, um hinreichend sicher zu sein, dass die Stichprobenverteilung mit der Populationsverteilung übereinstimmt.
Angenommen, Sie haben eine bimodale Bevölkerungsverteilung und eine Spitze ist viel größer als die andere. Bei einer Stichprobengröße von 5 ist die Wahrscheinlichkeit groß, dass alle 5 Einheiten einen Wert aufweisen, der sehr nahe am oberen Rand liegt (die Wahrscheinlichkeit, eine Einheit nach dem Zufallsprinzip zu ziehen, ist die größte). In diesem Fall sieht Ihre Probenverteilung monomodal aus.
Mit einer Stichprobengröße von hundert ist die Wahrscheinlichkeit, dass Ihre Stichprobenverteilung auch bimodal ist, viel größer !! Das Problem beim Bootstrapping ist, dass Sie nur ein Beispiel haben (und Sie bauen weiter auf diesem Beispiel auf). Wenn die Stichprobenverteilung wirklich nicht mit der Bevölkerungsverteilung übereinstimmt, sind Sie in Schwierigkeiten. Dies ist nur eine Idee, um die Wahrscheinlichkeit einer „schlechten Probenverteilung“ so gering wie möglich zu halten, ohne die Probengröße unendlich groß zu machen.