Summe der Koeffizienten der Multinomialverteilung

$\newcommand{\P}{\mathbb{P}}$ Ich werfe einen fairen Würfel. Immer wenn ich eine 1, 2 oder 3 bekomme, schreibe ich eine '1' auf; wenn ich eine 4 bekomme, schreibe ich eine '2' auf; Immer wenn ich eine 5 oder eine 6 bekomme, schreibe ich eine '3' auf.

Sei $N$ die Gesamtzahl der Würfe, die ich brauche, damit das Produkt aller Zahlen, die ich notiert habe, $\geq 100000$ . Ich möchte berechnen (oder approximieren) $\P(N\geq 25)$ , und eine Approximation kann als Funktion der Normalverteilung angegeben werden.

Erstens weiß ich, dass $\P(N\geq 11) = 1$ weil $\log_3 100.000 \approx 10.48$ . Nun sei $a$ , $b$ und $c$ die Häufigkeit, mit der ich eine 1, 2 bzw. 3 aufgeschrieben habe. Dann:

P (a, b, c ∣ n) = {\begin{cases} (\binom{n}{a, b, c}) {(\frac{1}{2})}^{a} {(\frac{1}{6})}^{b} {(\frac{1}{3})}^{c} & if a + b + c = n \\ 0 & otherwise \end{cases}

$\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = n \\ 0 &\text{ otherwise}\end{cases}$

Was ich berechnen möchte, ist:

P (a + b + c \geq 25 ∣ 2^{b} 3^{c} \geq 100000)

$\P(a + b + c \geq 25 \mid 2^b3^c\geq 100000)$

Wie berechne ich das?

--BEARBEITEN:

Daher wurde vorgeschlagen, die Bedingung durch Folgendes zu ersetzen:

P (a + b + c \geq 25 ∣ α a + β b + γ c \geq δ)

$\P(a + b + c \geq 25 \mid \alpha a + \beta b + \gamma c \geq \delta)$

Dabei ist , , und . $\alpha = 0$ $\beta = \log 2$ $\gamma = \log 3$ $\delta = \log 100000$

Das sieht lösbarer aus! Ich habe leider noch keine Ahnung, wie ich es lösen soll.

— Pedro Carvalho
quelle

+1 Dieses Problem könnte etwas vertrauter aussehen und sich offensichtlicher für ungefähre Lösungen eignen, wenn Sie die Bedingung in der Form schreiben, wobei und .

α a + β b + γ c \geq δ

$\alpha a + \beta b + \gamma c \ge \delta$

α = 0, β = \log (2), γ = \log (3),

$\alpha=0, \beta=\log(2), \gamma=\log(3),$

δ = \log (100000)

$\delta=\log(100000)$

— whuber

Ich habe diese neue Art hinzugefügt, um die Bedingung zu schreiben, aber ich habe leider immer noch nicht die geringste Ahnung, wie ich das lösen kann!

— Pedro Carvalho

Ein weiterer Hinweis ist, dass Sie aufhören werden , wenn es Vorkommen von '2' gibt. Sie können dies also mit einem negativen Binomial mit den Parametern und (auch mit und ) approximieren . Die genaue Antwort ist auch überschaubar, da es nicht viele Kombinationen gibt. Außerdem ist die Bedingung nicht genau - Sie müssen angeben, dass '2' oder '3' auf der ten Rolle aufgezeichnet wurde

17

$17$

17

$17$

0.5

$0.5$

11

$11$

1 / 3

$1/3$

N

$N$

— Wahrscheinlichkeitslogik

Antworten:

Die vorliegende Frage ist ein spezieller Fall, in dem es sich um eine Größe handelt, die eine lineare Funktion einer multinomialen Zufallsvariablen ist. Es ist möglich, Ihr Problem genau zu lösen, indem Sie die Multinomialkombinationen aufzählen, die die erforderliche Ungleichung erfüllen, und die Verteilung über diesen Bereich summieren. In dem Fall, in dem groß ist, kann dies rechnerisch unmöglich werden. In diesem Fall ist es möglich, eine ungefähre Verteilung unter Verwendung der normalen Annäherung an das Multinom zu erhalten. Eine verallgemeinerte Version dieser Annäherung wird unten gezeigt, und diese wird dann auf Ihr spezifisches Beispiel angewendet. $N$

Allgemeines Approximationsproblem: Angenommen, wir haben eine Folge austauschbarer Zufallsvariablen mit dem Bereich . Für jedes wir den Zählvektor , der die Anzahl von zählt Vorkommen jedes Ergebnisses in den ersten Werten der Sequenz. Da die zugrunde liegende Sequenz austauschbar ist, wird der Zählvektor wie folgt verteilt: $1, 2, ..., m$ $n \in \mathbb{N}$ $\boldsymbol{X} \equiv \boldsymbol{X} (n) \equiv (X_1, X_2, ..., X_m)$ $n$

\begin{array}{ll} X ~ Mu (n, θ) & θ = lim_{n \to \infty} X (n) / n . \end{array}

$\begin{array} \boldsymbol{X} \text{ ~ Mu}(n, \boldsymbol{\theta}) & & \boldsymbol{\theta} = \lim_{n \rightarrow \infty} \boldsymbol{X}(n)/n. \end{array}$

Nehmen wir nun an, wir haben einen Vektor nicht negativer Gewichte und verwenden diese Gewichte, um die lineare Funktion zu definieren: $\boldsymbol{w} = (w_1, w_2, ..., w_m)$

A (n) \equiv \sum_{i = 1}^{m} w_{i} X_{i} .

$A(n) \equiv \sum_{i=1}^m w_i X_i.$

Da die Gewichte nicht negativ sind, nimmt diese neue Menge in . Wir definieren dann die Zahl , dies ist die kleinste Anzahl von Beobachtungen, die erforderlich sind, um einen bestimmten Mindestwert für unsere lineare Funktion zu erhalten. Wir wollen die Verteilung von für den Fall approximieren, dass dieser Wert (stochastisch) groß ist. $n$ $N(a) \equiv \min \{ n \in \mathbb{N} | A(n) \geqslant a \}$ $N(a)$

Lösung des allgemeinen Approximationsproblems: Erstens stellen wir fest, dass in nicht abnimmt (was gilt, weil wir angenommen haben, dass alle Gewichte nicht negativ sind), haben wir: $A(n)$ $n$

P (N (a) ⩾ n) = P (N (a) > n - 1) = P (A (n - 1) < a) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (N(a) > n - 1) = \mathbb{P} (A(n-1) < a).$

Daher wird die Verteilung von ist direkt mit der Verteilung von verwandtem . Unter der Annahme, dass die erstere Größe groß ist, können wir die Verteilung der letzteren approximieren, indem wir den diskreten Zufallsvektor durch eine kontinuierliche Approximation aus der multivariaten Normalverteilung ersetzen . Dies führt zu einer normalen Näherung für die lineare Größe , und wir können die Momente dieser Größe direkt berechnen. Dazu verwenden wir die Tatsache, dass , und für . Mit etwas grundlegender Algebra ergibt dies: $N$ $A$ $\boldsymbol{X}$ $A(n)$ $\mathbb{E}(X_i) = n \theta_i$ $\mathbb{V}(X_i) = n \theta_i (1 - \theta_i)$ $\mathbb{C}(X_i, X_j) = -n \theta_i \theta_j$ $i \neq j$

μ \equiv E (\frac{1}{n} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i},

$\mu \equiv \mathbb{E}\left(\frac{1}{n} A(n)\right) = \sum_{i=1}^m w_i \theta_i,$

σ^{2} \equiv V (\frac{1}{\sqrt{n}} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i} - {(\sum_{i = 1}^{m} w_{i} θ_{i})}^{2} = μ (1 - μ) .

$\sigma^2 \equiv \mathbb{V}\left(\frac{1}{\sqrt{n}} A(n)\right) = \sum_{i=1}^m w_i \theta_i - \left(\sum_{i=1}^m w_i \theta_i\right)^2 = \mu (1 - \mu).$

Wenn wir die normale Annäherung an das Multinomial nehmen, erhalten wir nun die ungefähre Verteilung . Die Anwendung dieser Näherung ergibt: $A(n) \text{ ~ N} (n \mu, n \mu (1 - \mu))$

P (N (a) ⩾ n) = P (A (n - 1) < a) \approx Φ (\frac{a - (n - 1) μ}{\sqrt{(n - 1) μ (1 - μ)}}) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (A(n-1) < a) \approx \Phi \left(\frac{a - (n-1) \mu}{\sqrt{(n-1) \mu (1 - \mu)}}\right).$

(Das Symbol ist die Standardnotation für die Standardnormalverteilungsfunktion.) Mit dieser Näherung können Wahrscheinlichkeiten für die Größe für einen bestimmten Wert von . Dies ist eine grundlegende Näherung, bei der nicht versucht wurde, eine Kontinuitätskorrektur für die Werte der zugrunde liegenden multinomialen Zählwerte vorzunehmen. Es wird erhalten, indem eine normale Näherung unter Verwendung der gleichen ersten beiden zentralen Momente wie die exakte lineare Funktion vorgenommen wird. $\Phi$ $N(a)$ $a$

Anwendung auf Ihr Problem: In Ihrem Problem haben Sie Wahrscheinlichkeiten , Gewichte und Grenzwert . Sie haben also (auf sechs Dezimalstellen gerundet) . Unter Anwendung der obigen Näherung (Rundung auf sechs Dezimalstellen): $\boldsymbol{\theta} = (\tfrac{1}{2}, \tfrac{1}{6}, \tfrac{1}{3})$ $\boldsymbol{w} = (0, \ln 2, \ln 3)$ $a = \ln 100000$ $\mu = \tfrac{1}{6}\ln 2 + \tfrac{1}{3}\ln 3 = 0.481729$

P (N (a) ⩾ 25) \approx Φ (\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}) = Φ (- 0.019838) = 0.492086.

$\mathbb{P}(N(a) \geqslant 25) \approx \Phi \left(\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}\right) =\Phi (-0.019838) = 0.492086.$

Durch Anwendung der exakten Multinomialverteilung, die über alle Kombinationen summiert wird, die die Anforderung erfüllen , kann gezeigt werden, dass das genaue Ergebnis . Wir können also sehen, dass die Annäherung im vorliegenden Fall der genauen Antwort ziemlich nahe kommt. $\mathbb{P}(A(24) < a)$ $\mathbb{P}(N(a) \geqslant 25) = 0.483500$

Hoffentlich gibt Ihnen diese Antwort eine Antwort auf Ihre spezifische Frage und stellt sie gleichzeitig in einen allgemeineren Rahmen probabilistischer Ergebnisse, die für lineare Funktionen multinomialer Zufallsvektoren gelten. Mit der vorliegenden Methode sollten Sie ungefähre Lösungen für Probleme des allgemeinen Typs erhalten, mit denen Sie konfrontiert sind, und die Variation der spezifischen Zahlen in Ihrem Beispiel berücksichtigen.

— Ben - Monica wieder einsetzen
quelle

Machen wir eine normale Annäherung.

Lassen Sie uns zunächst Ihr Problem vollständig in Protokollen umformulieren. Sie beginnen bei 0 zum Zeitpunkt t = 0. Dann fügen Sie bei jedem Zeitschritt Folgendes hinzu:

0 mit der Wahrscheinlichkeit 1/2
$\log(2)$ mit einer Wahrscheinlichkeit von 1/6
$\log(3)$ mit einer Wahrscheinlichkeit von 1/3

Sie stoppen diesen Prozess, wenn Ihre Summe überschreitet. An diesem Punkt sehen Sie, wie viele Würfe Sie ausgeführt haben. Die Anzahl der Würfe, die Sie benötigt haben, um diesen Punkt zu erreichen, ist ^ $\log(10^5)$ $N$

Mein Rechner sagt mir, dass der Mittelwert Ihrer Inkremente: und die Varianz beträgt . Als Referenz liegt der Endpunkt bei sodass wir ihn in ungefähr 24 Schritten erreichen $\approx 0.48$ $\approx 0.25$ $\approx 11.51$

Unter der Bedingung, dass wir 25 Schritte ausgeführt haben, ist die Verteilung der Summe ungefähr ein Gaußscher Wert, der bei 12,0 zentriert ist und eine Varianz von 6,25 aufweist. Dies gibt uns eine grobe Gaußsche Näherung von $p(N\geq25)\approx 0.5$

Sie müssten sich die Kumulanten der Summe bei N = 25 ansehen, um zu wissen, ob die Gaußsche Näherung in Ordnung ist oder nicht. Da die Inkremente nicht symmetrisch sind, ist die ungefähre möglicherweise nicht die beste

— Guillaume Dehaene
quelle

Können Sie die Ableitung für mich vervollständigen? Es fällt mir schwer, es zu sehen. Gibt es auch keine genaue Möglichkeit, dies zu berechnen?

— Pedro Carvalho

Meinen Sie nicht "log (2)" und "log (3)", wo Sie log (1) und log (2) haben?

— Glen_b -Rate State Monica

@ GuillaumeDehaene schrieb: .... Nach meiner Berechnung ist was sich sehr von 0,5 unterscheidet

p (N \geq 25) \approx 0.5

$p(N\geq25)\approx 0.5$

P (N \geq 25) = 1 - P (N \leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266

$P(N\geq25) = 1 - P(N\leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266$

— Wolfies

Wie bekommt man P (n \ leq24) \ ca. 0,18?

— Guillaume Dehaene