Schnittwahrscheinlichkeit aus mehreren Stichproben derselben Population


10

Hier ist ein Beispielfall:

  • Ich habe eine Bevölkerung von 10.000 Artikeln. Jeder Artikel hat eine eindeutige ID.
  • Ich wähle zufällig 100 Artikel aus und notiere die IDs
  • Ich habe die 100 Gegenstände wieder in die Bevölkerung aufgenommen
  • Ich wähle wieder zufällig 100 Elemente aus, notiere die IDs und ersetze sie.
  • Insgesamt wiederhole ich diese Zufallsstichprobe fünfmal

Wie groß ist die Wahrscheinlichkeit, dass in allen 5 zufälligen Stichproben X Elemente erscheinen?

Ich bin nicht sehr versiert in Statistik. Wäre das richtig für X=10 ?

  • Für jede Stichprobe beträgt die Anzahl der möglichen Kombinationen von 100 Elementen aus 10.000 binom(10000,100)
  • Von allen möglichen Kombinationen von 100 Elementen enthalten binom(9990,90)binom(100,10) Kombinationen 10 spezifische Elemente
  • Die Wahrscheinlichkeit, 10 spezifische Elemente zu haben, ist (binom(9990,90)binom(100,10))/binom(10000,100)
  • Die berechnete Wahrscheinlichkeit hoch 5 würde 5 unabhängige Stichproben darstellen.

Im Wesentlichen berechnen wir also nur 5 unabhängige hypergeometrische Wahrscheinlichkeiten und multiplizieren sie dann miteinander? Ich habe das Gefühl, irgendwo einen Schritt zu verpassen.


3
Wenn Sie etwas einmal wiederholen, bedeutet dies, dass Sie es insgesamt zweimal tun. Bedeutet das nicht, dass Sie etwas fünfmal wiederholen, dass Sie es sechsmal tun?
Glen_b -State Monica

Antworten:


3

Berechnen Sie die Chancen rekursiv.

Sei die Wahrscheinlichkeit, dass genau x- Werte, 0 x k , in allen s 1 unabhängigen Ziehungen von k Elementen (ohne Ersatz) aus einer Population von n k > 0 Mitgliedern ausgewählt werden. (Lassen Sie uns n und k für die Dauer der Analyse festhalten, damit sie nicht explizit erwähnt werden müssen.)ps(x)x0xks1knk>0nk

Sei die Wahrscheinlichkeit, dass, wenn in den ersten s - 1 Ziehungen genau y Werte ausgewählt werden, in der letzten Ziehung x y von ihnen ausgewählt werden. Dann, weil es Teilmengen von Elementen dieser Elemente gibt und Teilmengen der verbleibenden Elemente getrennt aus den anderen Mitgliedern der Population ausgewählt werden,ps(xy)ys1xy(yx)y ( n - yxy k-xn-y(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

Das Gesetz der Gesamtwahrscheinlichkeit behauptet

ps(x)=y=xkps(xy)ps1(y).

Für ist es eine Gewissheit, dass : Dies ist die Startverteilung.s=1x=k

Die Gesamtberechnung, die erforderlich ist, um die vollständige Verteilung durch Wiederholungen zu erhalten, beträgt . Das ist nicht nur ziemlich schnell, der Algorithmus ist auch einfach. Eine Gefahr für den unachtsamen Programmierer besteht darin, dass diese Wahrscheinlichkeiten extrem klein werden und Gleitkommaberechnungen unterlaufen können. Die folgende Implementierung vermeidet dies, indem die Werte von in den Spalten eines Arrays .sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Die Antwort auf die Frage erhält man, indem man und . s=5, n=10000=104k=100=102 Die Ausgabe ist ein Array, aber die meisten Zahlen sind so klein, dass wir uns auf sehr kleine . Hier sind die ersten vier Zeilen, die :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

Die Ausgabe ist

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Die Werte von kennzeichnen die Zeilen, während die Werte von die Spalten kennzeichnen. Spalte 5 zeigt, dass die Wahrscheinlichkeit, dass ein Element in allen fünf Stichproben erscheint, winzig ist (ungefähr eins zu einer Million), und es besteht im Wesentlichen keine Chance, dass zwei oder mehr Elemente in allen fünf Stichproben auftreten.xs

Wenn Sie sehen möchten, wie gering diese Chancen sind, schauen Sie sich ihre Logarithmen an. Basis 10 ist praktisch und wir brauchen nicht viele Ziffern:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Die Ausgabe gibt an, wie viele Nullen nach dem Dezimalpunkt stehen:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Die Zahlen in der oberen Reihe sind Werte von . Zum Beispiel wird die Wahrscheinlichkeit, dass genau drei Werte in allen fünf Stichproben , durch Berechnen ermittelt , wobei und tatsächlich hat dies Nullen vor dem erste signifikante Ziffer. Zur Überprüfung ist der letzte Wert eine gerundete Version von . (was die Wahrscheinlichkeit zählt, dass das erste Sample in den nächsten vier Samples wieder erscheint) entsprichtxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Ich bin gerade auf ein ähnliches Problem gestoßen und habe es, obwohl ich auch nicht weiß, ob dies die richtige Lösung ist, folgendermaßen angegangen:

Sie interessieren sich für das Auftreten von Artikeln in 5 Proben - Artikel von insgesamt Artikeln. Man könnte sich eine Urne mit weißen Kugeln und schwarzen Kugeln vorstellen. Bälle werden herausgenommen und ist die Wahrscheinlichkeit, dass Sie alle weißen Bälle in Ihrem Set haben. Wenn Sie dies Mal (unabhängig) tun , würde ich es multiplizieren: .X10010,000X10,000X100phX5p=ph5

Ich könnte sogar denken einen Schritt weiter und wickeln Sie es um die Binomialverteilung: Wenn Sie eine Münze haben , die den Kopf kommt mit Wahrscheinlichkeit (die Wahrscheinlichkeit , dass Sie alle Artikel in Ihrem Set haben) , und Sie werfen es mal, was das ist Wahrscheinlichkeit Köpfe zu bekommen? .ph55p=(55)ph5(1ph)55=ph5


0

Wie groß ist die Wahrscheinlichkeit, dass in allen 5 zufälligen Stichproben Elemente erscheinen?X

Aufbauend auf dem, was Hans gesagt hat, möchten Sie immer die gleichen IDs in jeder Stichprobe von 100 und 100- IDs aus den verbleibenden 10000- . Die Wahrscheinlichkeit, dies für eine gegebene Stichprobe zu tun, ergibt sich aus der hypergeometrischen Funktion für Erfolge bei einer Ziehung von 100 aus einer Population von 10000 mit möglichen Erfolgszuständen: . Für 5 Proben würden Sie .XXXXX P5P=(XX)(10000X100X)(10000100)P5

Wir setzen jedoch voraus, dass Sie die gemeinsam genutzten IDs kennen und dass es Möglichkeiten gibt, um diese IDs auszuwählen . Ihre endgültige Antwort wäre also .( 10000X X ( 10000(10000X)X(10000X)P5


Was ist " "? Es ist unmöglich, diese Antwort zu verstehen, geschweige denn sie zu überprüfen, bis Sie das offenbaren! x
whuber

Ich erinnere mich nicht, wie es vor 3 Jahren war, aber vermutlich das gleiche X wie in der Frage?
Hao Ye

IN ORDNUNG. Aber was rechtfertigt Ihre Formel? Einfache Überprüfungen wie der Fall (für den Ihre Formel angibt , dass die Wahrscheinlichkeit , wodurch alle anderen Möglichkeiten vollständig ausgeschlossen werden!) Zeigen an, dass sie falsch sind. 1X=01
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.