Ihr Beispiel legt nahe, dass die Variablen nicht nur unabhängig sind, sondern auch dieselbe Normalverteilung haben. Lassen Sie seine Parameter (der Mittelwert) und (die Varianz) sein und nehmen Sie an, dass die Teilmenge aus dieser Variablen besteht. Wir könnten die Variablen genauso gut indizieren, so dass diese Teilmenge sind.nX1,X2,…,Xnμσ2kX1,…,Xk
Die Frage fragt nach der Wahrscheinlichkeit, dass die Summe der ersten Variablen gleich oder größer ist als die Summe der übrigen:k
pn,k(μ,σ)=Pr(X1+⋯+Xk≥Xk+1+⋯+Xn)=Pr(Y≤0)
wo
Y=−(X1+⋯+Xk)+(Xk+1+⋯+Xn).
Y ist eine lineare Kombination unabhängiger Normalvariablen und hat daher eine Normalverteilung - aber welche? Die Gesetze der Erwartung und der Varianz sagen es uns sofort
E[Y]=−kμ+(n−k)μ=(n−2k)μ
und
Var(Y)=kσ2+(n−k)σ2=nσ2.
Daher hat eine Standardnormalverteilung mit Verteilungsfunktion woher die Antwort lautetZ=Y−(n−2k)μσn−−√
Φ,
pn,k(μ,σ)=Pr(Y≤0)=Pr(Z≤−(n−2k)μσn−−√)=Φ(−(n−2k)μσn−−√).
In der Frage ist und wohern=5,k=2,μ=10,σ=3,
p5,2(10,3)=Φ(−(5−2(2))10310−−√)≈0.0680186.
Verallgemeinerung
An dieser Analyse muss sich wenig ändern, selbst wenn die unterschiedliche Normalverteilungen haben oder sogar korreliert sind: Sie müssen nur annehmen, dass sie eine Normalverteilung mit Variablen haben, um sicherzustellen, dass ihre lineare Kombination immer noch eine Normalverteilung aufweist. Die Berechnungen werden auf die gleiche Weise durchgeführt und ergeben eine ähnliche Formel.Xin
Prüfen
Ein Kommentator schlug vor, dies mit einer Simulation zu lösen. Obwohl dies keine Lösung wäre, ist es eine gute Möglichkeit, eine Lösung schnell zu überprüfen. Daher können R
wir in die Eingaben der Simulation auf eine beliebige Weise als festlegen
n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results
und simulieren Sie solche Daten und vergleichen Sie die Summen mit diesen beiden Zeilen:
x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))
Die Nachbearbeitung besteht darin, den Anteil der simulierten Datensätze zu ermitteln, in denen eine Summe die andere übersteigt, und diesen mit der theoretischen Lösung zu vergleichen:
se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)
Die Ausgabe in diesem Fall ist
Simulation Theory Z-score
0.0677 0.0680 -1.1900
Die Übereinstimmung ist eng und der kleine absolute Z-Score ermöglicht es uns, die Diskrepanz eher zufälligen Schwankungen als Fehlern in der theoretischen Ableitung zuzuschreiben.