Ich bin ein Statistik-Neuling, also entschuldige mich im Voraus, wenn ich eine Kopffrage stelle. Ich habe nach Antworten auf meine Frage gesucht, aber ich finde, dass viele der Themen entweder zu spezifisch sind oder schnell über das hinausgehen, was ich derzeit verstehe.
Ich habe einige Simulationsarbeiten, die große Datensätze enthalten, deren vollständige Simulation nicht mehr möglich ist. Für den kleinsten meiner Datensätze zeigt ein umfassender Lauf die folgende Verteilung der Ergebnisse von insgesamt 9180900 Tests.
Ergebnis / Häufigkeit:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Was die Zahlen bedeuten, spielt keine Rolle; Was zählt, ist, dass die größeren Datensätze, die ich habe, sich auf Milliarden von Tests erstrecken können und viel zu zeitaufwändig werden, um ausgeführt zu werden. Ich muss die Arbeitsbelastung einschränken.
Ich denke, ich sollte in der Lage sein, aus dem gesamten Satz von Tests eine Stichprobe zu erstellen, um eine Verteilung für die Stichprobe abzuleiten, und (innerhalb einiger Grenzen) schließen, dass die Ergebnisse einer erschöpfenden Simulation ungefähr dieselbe Verteilung aufweisen würden. Den durchgeführten Tests ist keine Verzerrung inhärent, daher sollte eine einheitliche zufällige Auswahl der Eingaben eine gültige Stichprobe liefern.
Was ich noch nicht verstehe, ist, wie ich meine Stichprobengröße auswählen soll. Insbesondere die Verteilung weist einen seltsamen Schwanz auf, und ich befürchte, dass eine zu kleine Abtastung die niedrigeren Frequenzen verliert. (Die 140 Vorkommen von '4' machen nur 0,0015% der Bevölkerung aus!)
Meine Frage ist also, wie lässt sich eine Stichprobengröße am besten berechnen, mit der ich ein gewisses Maß an Güte in meinen Ergebnissen behaupten kann?
Oder stelle ich die falsche Frage?