Dies ist eine Übung zur Verwendung von Indikatorvariablen. Ein Indikator hat den Wert um anzuzeigen, dass eine Bedingung erfüllt ist, und ansonsten den Wert . Scheinbar schwierige Probleme in Bezug auf Wahrscheinlichkeit und Erwartung können einfache Lösungen haben, die Indikatoren und die Linearität der Erwartung ausnutzen - selbst wenn die beteiligten Zufallsvariablen nicht unabhängig sind. Für diejenigen, die mit diesen Ideen noch nicht vertraut sind, werden im Folgenden alle Details angegeben.10
Nennen Sie die Ingenieure "X" und "Y". Auswahl von Modell X mittels Indikatorvariablen , wobei17X.ich, i = 1 , 2 , … , 17
{X.ich= 1X.ich= 0 wenn X i auswählt Andernfalls.
Definieren Sie auf ähnliche Weise die Indikatorvariablen für die Auswahl von Y.Y.ich
Wir können die Bedingungen im Problem algebraisch ausdrücken:
- Der Indikator, dass von beiden ausgewählt wird, ist .ichX.ichY.ich
- Der Indikator, dass von keinem ausgewählt wird, ist .ich( 1 -X.ich) ( 1 -Y.ich)
- Der Indikator, dass nur von X ausgewählt wird, ist .ichX.ich( 1 -Y.ich)
- Der Indikator, dass nur von Y ausgewählt wird, ist .ich( 1 -X.ich)Y.ich
Die von ausgewählte Gesamtzahl istX.
4 =X.1+X.2+ ⋯ +X.17=∑i = 117X.ich.
Offensichtlich sind alle Variablen identisch verteilt. Sei ihre gemeinsame Erwartung. weil34μ
4 = E.[ 4 ] = E.[∑i = 117X.ich] =∑i = 117E.[X.ich] =∑i = 117μ = 17 μ ,
wir schließen daraus
μ =417.
Obwohl die Variablen nicht unabhängig sind, wird angenommen , dass die unabhängig von den .X.ichY.ich
ein. Erwartete Anzahl der von beiden ausgewählten Elemente
Die Gesamtzahl der von beiden ausgewählten Elemente ist die Summe der . Somit ist die erwartete AnzahlX.ichY.ich
E.[∑i = 117X.ichY.ich] =∑i = 117E.[X.ichY.ich] =∑i = 117E.[X.ich] E.[Y.ich] =∑i = 117417417=4217.
Die Unabhängigkeit von und wurde benötigt, um jedes als Produkt von und .X.ichY.ichE.[X.ichY.ich]]E.[X.ich]]E.[Y.ich]]
b. Erwartete Anzahl von Elementen, die von keinem ausgewählt wurden
Die Gesamtzahl der von keinem ausgewählten Elemente ist die Summe der . Da alle unabhängig von allen , gilt genau die gleiche Methode wie in (a); Die einzige Änderung besteht darin, dass durch . Der Wert muss( 1 -X.ich) ( 1 -Y.ich)1 -X.ich1 -Y.ich4 / 17E.[ 1 -X.ich] = E.[ 1 -Y.ich] = 13 / 17
E.[∑i = 117( 1 -X.ich) ( 1 -Y.ich) ] =13217.
c. Erwartete Anzahl von Elementen, die von genau einem ausgewählt wurden
Dies kann , wie in (a) gelöst werden oder (b), mit als die Wahrscheinlichkeit von nur von X ausgewählt ist und als die Chance, nur von Y ausgewählt zu werden. Die Antwort ist die Summe dieser (disjunkten) Ereignisse, gleich .4 / 17 × 13 / 17 = 52 / 1713 / 17 × 4 / 17 = 52 / 17104 / 17
Eine Verknüpfung (oder Überprüfung der Arbeit) ist zu beachten , dass jedes Element in genau eine der Kategorien fällt beide , weder oder genau ein , und daher ist die Antwort muss die Differenz zwischen dem Gesamt (sein ) und der Summe der Antworten zu (a) und (b):17
17 -4217- -13217=10417.
Überprüfung per Simulation
Lassen Sie uns 10.000 (sagen wir) Simulationen dieser Auswahl durchführen und die Ergebnisse verfolgen. Wir können (a) die durchschnittliche Anzahl von Elementen ausgeben, die von beiden ausgewählt wurden, (b) die durchschnittliche Anzahl von Elementen, die von keinem ausgewählt wurden, und (c) die durchschnittliche Anzahl von Elementen, die von genau einem ausgewählt wurden. Unter dieser Ausgabe drucken wir als Referenz die Antworten in (a), (b) und (c). Wir werden nicht versuchen, effizient zu sein: Ziel ist es, den Auswahlprozess wie beschrieben zu modellieren und die Ereignisse ohne arithmetische Tricks direkt hochzuzählen. Hier ist ein R
Code, der dies auf ziemlich übersichtliche Weise tut, während er nur etwa eine Sekunde dauert:
n.sim <- 1e4 # Number of iterations
n <- 17 # Number of items
k <- 4 # Numbers chosen by each engineer
set.seed(17) # Creates reproducible output
sim <- replicate(n.sim, {
x <- sample.int(n, k) # X chooses `k` items
y <- sample.int(n, k) # Y chooses 'k' items
x.and.y <- intersect(x,y) # Find those chosen by both
not.x.and.not.y <- setdiff(1:n, union(x,y)) # ... .... chosen by neither
x.only <- setdiff(x, y) # ... .... chosen only by x
y.only <- setdiff(y, x) # ... .... chosen only by y
c(Both=length(x.and.y), # Count those chosen by both
Neither=length(not.x.and.not.y), # Count those chosen by neither
One=length(x.only) + length(y.only) # Count those chosen by one
)
})
signif(rbind(Simulation=rowMeans(sim), # Average the simulations
Theory=c(k^2/n, (n-k)^2/n, n-(k^2+(n-k)^2)/n)), 4) # Give theoretical values
Die beiden Ausgabezeilen - Durchschnitt über viele simulierte Versuche und die zuvor gegebenen theoretischen Antworten - sind nahe genug, um die Richtigkeit der Antworten zu unterstützen:
Both Neither One
Simulation 0.9315 9.932 6.137
Theory 0.9412 9.941 6.118