Wie berechne ich die Stichprobengröße für die Simulation, um ein gewisses Maß an Güte in meinen Ergebnissen zu erzielen?

8

Ich bin ein Statistik-Neuling, also entschuldige mich im Voraus, wenn ich eine Kopffrage stelle. Ich habe nach Antworten auf meine Frage gesucht, aber ich finde, dass viele der Themen entweder zu spezifisch sind oder schnell über das hinausgehen, was ich derzeit verstehe.

Ich habe einige Simulationsarbeiten, die große Datensätze enthalten, deren vollständige Simulation nicht mehr möglich ist. Für den kleinsten meiner Datensätze zeigt ein umfassender Lauf die folgende Verteilung der Ergebnisse von insgesamt 9180900 Tests.

Ergebnis / Häufigkeit:

0 7183804
1 1887089
2 105296
3 4571
4 140

Was die Zahlen bedeuten, spielt keine Rolle; Was zählt, ist, dass die größeren Datensätze, die ich habe, sich auf Milliarden von Tests erstrecken können und viel zu zeitaufwändig werden, um ausgeführt zu werden. Ich muss die Arbeitsbelastung einschränken.

Ich denke, ich sollte in der Lage sein, aus dem gesamten Satz von Tests eine Stichprobe zu erstellen, um eine Verteilung für die Stichprobe abzuleiten, und (innerhalb einiger Grenzen) schließen, dass die Ergebnisse einer erschöpfenden Simulation ungefähr dieselbe Verteilung aufweisen würden. Den durchgeführten Tests ist keine Verzerrung inhärent, daher sollte eine einheitliche zufällige Auswahl der Eingaben eine gültige Stichprobe liefern.

Was ich noch nicht verstehe, ist, wie ich meine Stichprobengröße auswählen soll. Insbesondere die Verteilung weist einen seltsamen Schwanz auf, und ich befürchte, dass eine zu kleine Abtastung die niedrigeren Frequenzen verliert. (Die 140 Vorkommen von '4' machen nur 0,0015% der Bevölkerung aus!)

Meine Frage ist also, wie lässt sich eine Stichprobengröße am besten berechnen, mit der ich ein gewisses Maß an Güte in meinen Ergebnissen behaupten kann?

Oder stelle ich die falsche Frage?

— Stephen
quelle

6

Ich denke, die Antwort auf Ihre Frage sind ein paar andere Fragen: Wie selten muss ein bestimmtes Testergebnis sein, bevor Sie sich nicht darum kümmern? Wie sicher möchten Sie sein, dass Sie tatsächlich zumindest einen Test finden, der auf diese Weise herauskommt, wenn er genau an der Schwelle auftritt, an der Sie aufgehört haben, sich darum zu kümmern. Mit diesen Werten können Sie eine Leistungsanalyse durchführen. Ich bin nicht zu 100% sicher, ob Sie eine multinomiale (mit mehr als einem Ergebnis) Leistungsanalyse durchführen müssen oder nicht. Ich vermute, dass eine binomische (entweder der seltene Test oder nicht) gut funktioniert, z. B. http: / /statpages.org/proppowr.html . Alpha = 0,05, Leistung = 80%, Gruppe mit Anteil 0, Gruppe 1 mit 0,0015. Relative Stichprobengröße 1; Insgesamt - südlich von 13.000 Tests. Bei der erwarteten Anzahl von Test 4s beträgt ~ 20.

Auf diese Weise können Sie die Anzahl der Tests ermitteln, die Sie benötigen, um eines dieser selten auftretenden Ergebnisse zu ermitteln. Wenn Sie sich jedoch wirklich für die relative Häufigkeit interessieren, ist das Problem schwieriger. Ich würde vermuten, dass Sie eine vernünftige Vermutung finden würden, wenn Sie einfach das resultierende N aus der Leistungsanalyse mit 20 oder 30 multiplizieren würden.

In der Praxis können Sie in Betracht ziehen, Tests auszuführen, bis Sie 20 oder 30 Ergebnisse 4s erhalten, wenn Sie die Anzahl der Tests nicht wirklich im Voraus festlegen müssen. Wenn Sie so viele 4er haben, sollten Sie eine vernünftige, wenn auch nicht absolute Schätzung ihrer relativen Häufigkeit IMO haben.

Letztendlich gibt es Kompromisse zwischen der Anzahl der durchgeführten Tests und der Genauigkeit. Sie müssen wissen, wie genau Ihre Schätzungen sein sollen, bevor Sie wirklich feststellen können, wie viele "genug" sind.

— russellpierce
quelle

Richtig, Leistungsanalyse. Ich denke, dass mir die relative Häufigkeit vielleicht tatsächlich wichtig ist. Ich werde versuchen, das auch zu lesen. Ohne eine klar definierte Anzahl von Tests, die ausgeführt werden sollen, habe ich 2% der Tests, die einheitlich zufällig ausgewählt wurden, für jeden Datensatz ausgeführt. 2% sind willkürlich, aber auch für größere Datensätze nachvollziehbar. Dies bedeutet, dass meine Stichprobengröße in Bezug auf die Anzahl der Tests an einem Datensatz zunimmt, was zu mehr Tests führen kann, als ich für die größeren Datensätze benötige ...

— Stephen

2

Ich denke, dass die Leistungsanalyse zu aufwendig für das ist, was Sie versuchen, und Sie möglicherweise im Stich lässt.

Mit einer Stichprobengröße nördlich von 9 Millionen halte ich Ihre Schätzung für p = Pr(X > 3) = 0.000015ziemlich genau. Sie können dies also in einem einfachen Binomialmodell (n, p) verwenden, um eine Stichprobengröße zu schätzen.

Angenommen, Ihr Ziel ist es, mindestens ein "großes" Ereignis mit einer Wahrscheinlichkeit von 99,9% zu beobachten. Dann ist Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999Ihre gewünschte Stichprobengröße n = ln(0.001)/ln(0.999985) = 460514.

Wenn Sie Glück haben und bereit sind, eine 10% ige Chance zu nutzen, ein großes Ereignis zu verpassen, benötigen Sie natürlich nur eine Stichprobengröße von n = 153505. Durch Verdreifachen der Stichprobengröße wird die Wahrscheinlichkeit, dass Sie das große Ereignis verpassen, um einen Faktor verringert von 100, also würde ich für die 460.000 gehen.

ABER ... wenn Sie nach FÜNF suchen, liegt ihre Wahrscheinlichkeit südlich von 1/9180902 und um mindestens eine davon mit einer Wahrscheinlichkeit von 99,9% zu beobachten, benötigen Sie eine Stichprobengröße von etwa 63,4 Millionen!

Beachten Sie die Ratschläge von DrKNexus zur Aktualisierung Ihrer Schätzung der Wahrscheinlichkeiten für die Großereignisse, da diese möglicherweise nicht in allen Datensätzen konstant sind.

— Mike Anderson
quelle

Das von Ihnen angegebene Pr (X> 3) unterscheidet sich von den Fragestellern 0,0015. Möglicherweise möchten Sie es überarbeiten.

— Russellpierce