Reverse Chernoff gebunden

31

Gibt es eine umgekehrte Chernoff-Grenze, die einschränkt, dass die Schwanzwahrscheinlichkeit mindestens so groß ist.

dh wenn $X_1,X_2,\ldots,X_n$ unabhängige binomiale Zufallsvariablen sind und $\mu=\mathbb{E}[\sum_{i=1}^n X_i]$ . Dann können wir für eine Funktion beweisen, dass . $Pr[\sum_{i=1}^n X_i\geq (1+\delta)\mu]\geq f(\mu,\delta,n)$ $f$

pr.probability chernoff-bound

— Ashwinkumar BV
quelle

1

Ihr Beispiel ist zu viel verlangt: mit

p = n^{- 2 / 3}

$p=n^{-2/3}$ , ein Standard - Chernoff gebunden zeigt , dass

Pr [| T \cap S_{1} | \geq \sqrt{1.1} n^{1 / 3}]

$\Pr[|T\cap S_1| \geq \sqrt{1.1}n^{1/3}]$ und

Pr [| T \cap S_{2} | \sqrt{1.1} \leq n^{1 / 3}]

$\Pr[|T\cap S_2|\sqrt{1.1}\leq n^{1/3}]$ sind most

\exp (- c n^{1 / 3})

$\exp(-cn^{1/3})$ für einige

c

$c$ .

— Colin McQuillan

Sie haben Recht, ich war verwirrt darüber, welcher Begriff in chernoff bound das Quadrat hat. Ich habe die Frage geändert, um eine schwächere Grenze widerzuspiegeln. Ich denke nicht, dass es mir bei meiner aktuellen Bewerbung helfen wird, aber es könnte aus anderen Gründen interessant sein.

— Ashwinkumar BV

28

Hier ist ein expliziter Beweis dafür, dass eine Standard-Chernoff-Bindung für einen bestimmten Bereich der Parameter bis zu konstanten Faktoren im Exponenten eng ist. (Insbesondere, wenn die Variablen 0 oder 1 und 1 mit einer Wahrscheinlichkeit von 1/2 oder weniger und $\epsilon\in(0,1/2)$ sind und die Chernoff-Obergrenze kleiner als eine Konstante ist.)

Wenn Sie einen Fehler finden, lassen Sie es mich bitte wissen.

Lemma 1. (Enge der Chernoff-Grenze) Sei $X$ der Durchschnitt von $k$ unabhängigen 0/1-Zufallsvariablen (rv). Für jedes $\epsilon\in(0,1/2]$ und $p\in(0,1/2]$ , vorausgesetzt, $\epsilon^2 p k \ge 3$ ,

(i) Wenn jedes rv mit einer Wahrscheinlichkeit von höchstens , dann ist $p$

Pr [X \leq (1 - ϵ) p] \geq \exp (- 9 ϵ^{2} p k) .

$\displaystyle \Pr[X\le (1-\epsilon)p] ~\ge~ \exp\big({-9\epsilon^2 pk}\big).$

(ii) Wenn jedes rv mit einer Wahrscheinlichkeit von mindestens , dann ist $p$

Pr [X \geq (1 + ϵ) p] \geq \exp (- 9 ϵ^{2} p k) .

$\displaystyle \Pr[X\ge (1+\epsilon)p] ~\ge~ \exp\big({-9\epsilon^2 pk}\big).$

Beweis. Wir verwenden die folgende Beobachtung:

Behauptung 1. Wenn , dann $1\le \ell \le k-1$ $\displaystyle {k \choose \ell} ~\ge~ \frac{1}{e\sqrt{2\pi\ell}} \Big(\frac{k}{\ell}\Big)^{\ell} \Big(\frac{k}{k-\ell}\Big)^{k-\ell}$

Beweis von Anspruch 1. Nach Stirlings Näherung ist wobei $i!=\sqrt{2\pi i}(i/e)^ie^\lambda$ $\lambda\in[1/(12i+1),1/12i].$

Also ist , was ist mindestens QED $k\choose \ell$ $\frac{k!}{\ell! (k-\ell)!}$

\frac{\sqrt{2 π k} (\frac{k}{e})^{k}}{\sqrt{2 π ℓ} (\frac{ℓ}{e})^{ℓ} \sqrt{2 π (k - ℓ)} (\frac{k - ℓ}{e})^{k - ℓ}} \exp (\frac{1}{12 k + 1} - \frac{1}{12 ℓ} - \frac{1}{12 (k - ℓ)})

$\frac{\sqrt{2\pi k}\,(\frac{k}{e})^k} { \sqrt{2\pi \ell}\,(\frac{\ell}{e})^\ell ~~\sqrt{2\pi (k-\ell)}\,(\frac{k-\ell}{e})^{k-\ell} } \exp\Big(\frac{1}{12k+1} - \frac{1}{12\ell} - \frac{1}{12(k-\ell)}\Big)$

\geq \frac{1}{\sqrt{2 π ℓ}} (\frac{k}{ℓ})^{ℓ} (\frac{k}{k - ℓ})^{k - ℓ} e^{- 1} .

$~\ge~ \frac{1}{\sqrt{2\pi\ell}} \Big(\frac{k}{\ell}\Big)^{\ell} \Big(\frac{k}{k-\ell}\Big)^{k-\ell}e^{-1}.$

Beweis von Lemma 1 Teil (i). Ohne Allgemeingültigkeitsverlust sei angenommen, dass jede 0/1-Zufallsvariable in der Summe mit einer Wahrscheinlichkeit von genau . Hinweis entspricht der Summe , und . $X$ $p$ $\Pr[X\le (1-\epsilon)p]$ $\sum_{i = 0}^{\lfloor(1-\epsilon)pk\rfloor} \Pr[X=i/k]$ $\Pr[X=i/k] = {k \choose i} p^i (1-p)^{k-i}$

Fix . Die Terme in der Summe nehmen zu, also haben die Terme mit dem Index jeweils einen Wert von mindestens , also hat ihre Summe einen Gesamtwert von mindestens . Um den Beweis zu vervollständigen, zeigen wir, dass $\ell = \lfloor(1-2\epsilon)pk\rfloor+1$ $i\ge\ell$ $\Pr[X=\ell/k]$ $(\epsilon pk - 2) \Pr[X=\ell/k]$

(ϵ p k - 2) Pr [X = ℓ / k] \geq \exp (- 9 ϵ^{2} p k) .

$(\epsilon pk - 2) \Pr[X=\ell/k] ~\ge~ \exp({-9\epsilon^2 pk}).$

Die Annahmen und ergeben , so dass die linke Seite oben mindestens . Verwendung von Anspruch 1, gebunden , ist dies wiederum mindestens , wo und $\epsilon^2pk\ge 3$ $\epsilon\le 1/2$ $\epsilon pk \ge 6$ $\frac{2}{3}\epsilon pk\, {k \choose \ell} p^\ell(1-p)^{k-\ell}$ $k\choose \ell$ $A\, B$ $A = \frac{2}{3e}\epsilon p k/ \sqrt{2\pi \ell}$ $B= \big(\frac{k}{\ell}\big)^\ell \big(\frac{k}{k-\ell}\big)^{k-\ell} p^\ell (1-p)^{k-\ell}.$

Zum Schluss zeigen wir und . $A\ge \exp(-\epsilon^2pk)$ $B \ge \exp(-8\epsilon^2 pk)$

Anspruch 2. $A \ge \exp({-\epsilon^2 pk})$

Beweis von Anspruch 2. Die Annahmen und implizieren (i) . $\epsilon^2 pk \ge 3$ $\epsilon\le 1/2$ $pk\ge 12$

Per Definition . Bis (i) . Somit ist (ii) . $\ell \le pk + 1$ $p k \ge 12$ $\ell \,\le\, 1.1 pk$

Einsetzen der rechten Seite von (ii) für in ergibt (iii) . $\ell$ $A$ $A \ge \frac{2}{3e} \epsilon \sqrt{p k / 2.2\pi}$

Die Annahme impliziert , was mit (iii) (iv) ergibt . $\epsilon^2 pk \ge 3$ $\epsilon\sqrt{ pk} \ge \sqrt 3$ $A \ge \frac{2}{3e}\sqrt{3/2.2\pi} \ge 0.1$

Aus folgt, dass (v) . $\epsilon^2pk \ge 3$ $\exp(-\epsilon^2pk) \le \exp(-3) \le 0.04$

(iv) und (v) ergeben zusammen den Anspruch. QED

Anspruch 3. . $B\ge \exp({-8\epsilon^2 pk})$

Beweis nach Anspruch 3. Fixiere so, dass . Die Wahl von impliziert , daher gilt die Behauptung so lange wie . Nimmt man jede Seite dieser letzteren Ungleichung und vereinfacht sie, so entspricht dies Wenn Sie und vereinfachen, entspricht dies $\delta$ $\ell=(1-\delta)pk$
$\ell$ $\delta\le 2\epsilon$ $B \ge \exp(-2\delta^2pk)$ $-1/\ell$

\frac{ℓ}{p k} (\frac{k - ℓ}{(1 - p) k})^{k / ℓ - 1} \leq \exp (\frac{2 δ^{2} p k}{ℓ}) .

$\frac{\ell}{p k} \Big(\frac{k-\ell}{(1-p) k}\Big)^{k/\ell-1} ~\le~ \exp\Big(\frac{2\delta^2 pk}{\ell}\Big).$

ℓ = (1 - δ) p k

$\ell= (1-\delta)pk$

(1 - δ) (1 + \frac{δ p}{1 - p})^{\frac{1}{(1 - δ) p} - 1} \leq \exp (\frac{2 δ^{2}}{1 - δ}) .

$(1-\delta) \Big(1+\frac{\delta p}{1-p}\Big)^{\displaystyle \frac{1}{(1-\delta)p}-1} ~\le~ \exp\Big(\frac{2\delta^2}{1-\delta}\Big).$ Nimmt man den Logarithmus beider Seiten und verwendet zweimal , so gilt Die linke Seite oben vereinfacht sich zu , was weniger als weil . QED

\ln (1 + z) \leq z

$\ln(1+z)\le z$

- δ + \frac{δ p}{1 - p} (\frac{1}{(1 - δ) p} - 1) \leq \frac{2 δ^{2}}{1 - δ} .

$-\delta\, +\,\frac{\delta p}{1-p}\Big(\frac{1}{(1-\delta)p}-1\Big) ~\le~ \frac{2\delta^2}{1-\delta}.$

δ^{2} / (1 - p) (1 - δ)

$\delta^2/\,(1-p)(1-\delta)$

2 δ^{2} / (1 - δ)

$2\delta^2/(1-\delta)$

p \leq 1 / 2

$p\le 1/2$

Ansprüche 2 und 3 implizieren . Dies impliziert Teil (i) des Lemmas. $A B \ge \exp({-\epsilon^2pk})\exp({- 8\epsilon^2pk})$

Beweis von Lemma 1 Teil (ii). Ohne Beschränkung der Allgemeinheit annehmen , jede Zufallsvariable mit einer Wahrscheinlichkeit von genau . $1$ $p$

Beachten Sie . Fix . $\Pr[X\ge (1+\epsilon)p] = \sum_{i = \lceil(1-\epsilon)pk\rceil}^n \Pr[X=i/k]$ $\hat\ell = \lceil (1+2\epsilon)pk \rceil - 1$

Die letzten Terme in der Summe ergeben mindestens , was mindestens . (Der Beweis dafür ist der gleiche wie für (i), außer dass durch und durch so dass .) QED $\epsilon pk$ $(\epsilon pk-2)\Pr[X=\hat\ell/k]$ $\exp({-9\epsilon^2 pk})$ $\ell$ $\hat\ell$ $\delta$ $-\hat\delta$ $\hat\ell = (1+\hat\delta)pk$

— Neal Young
quelle

Mehrere [Rechenfehler] - Gibt es eine Chance, sie zu beheben?

— Aryeh

Diese mathematischen Ausdrücke werden normalerweise gut angezeigt. Aus irgendeinem Grund funktioniert der Befehl \ choose in mathjax nicht. Weder ist \ binom. ZB $ a \ wähle b $ gibt . Vermutlich ist dies ein Fehler in der Mathjax-Konfiguration. Hoffentlich wird es bald behoben. In der Zwischenzeit finden Sie Lemma 5.2 im Anhang von arxiv.org/pdf/cs/0205046v2.pdf oder cs.ucr.edu/~neal/Klein15Number .

(\binom{a}{b})

$a \choose b$

— Neal Young

22

Das Berry-Esseen-Theorem kann Schwanzwahrscheinlichkeits-Untergrenzen angeben, solange sie höher als . $n^{-1/2}$

Ein weiteres Werkzeug, das Sie verwenden können, ist die Paley-Zygmund-Ungleichung . Es impliziert , dass für eine beliebige gerade Zahl und jede reellwertigen Zufallsvariablen , $k$ $X$

Pr [| X | >= \frac{1}{2} (E [X^{k}])^{1 / k}] \geq \frac{E [X^{k}]^{2}}{4 E [X^{2 k}]}

$\Pr[|X| >= \frac{1}{2}(\mathbb{E}[X^k])^{1/k}] \geq \frac{\mathbb{E}[X^k]^2}{4\mathbb{E}[X^{2k}]}$

Zusammen mit dem Multinomialsatz kann für eine Summe von Rademacher-Zufallsvariablen Paley-Zygmund ziemlich starke Untergrenzen ergeben. Es funktioniert auch mit Randed-Independence-Zufallsvariablen. Zum Beispiel erhalten Sie leicht, dass die Summe von 4-fach unabhängigen Zufallsvariablen mit konstanter Wahrscheinlichkeit ist. $X$ $n$ $n$ $\pm 1$ $\Omega(\sqrt{n})$

— Sasho Nikolov
quelle

14

Wenn Sie in der Tat in der Lage sind, die Anzahl der Bernoulli-Versuche zu begrenzen (und nicht etwa die Anzahl der zufälligen Variablen), ist das Folgende ziemlich eng.

Schlammungleichheit *. Sei iid Draws aus einem Bernoulli-Rv mit , und sei die Ganzzahl gegeben. Wenn entweder (a) und oder (b) , dann wobei die cdf einer Standardnormalen ist. $\{X_i\}_{i=1}^n$ $\mathbb{E}(X_1) = p$ $k\leq n$ $p\leq 1/4$ $np \leq k$ $np \leq k \leq n(1-p)$
$Pr [\sum_{i} X_{i} \geq k] \geq 1 - Φ (\frac{k - n p}{\sqrt{n p (1 - p)}}),$ $\text{Pr}\big[\sum_i X_i \geq k\big] \geq 1 - \Phi\left(\frac{k-np}{\sqrt{np(1-p)}}\right),$ $\Phi$

(Wenn man das Argument von als Transformation der Standardnormalen betrachtet, stimmt dies genau mit dem überein, was die CLT Ihnen sagt. Tatsächlich sagt es uns, dass Binomialzahlen, die die Bedingungen des Theorems erfüllen, ihre entsprechenden Gaußschen auf den oberen Schwänzen dominieren.) $\Phi$

Ab hier können Sie Grenzen für , um etwas Schöneres zu erhalten. Zum Beispiel wird in Fellers erstem Buch im Abschnitt über Gauß'sche Verhältnisse für jedes dass wobei die Dichte einer Standardnormalen ist. Ähnliche Grenzen gibt es auch im Wikipedia-Artikel für "Q-Funktion". $\Phi$ $z>0$

\frac{z}{1 + z^{2}} φ (z) < 1 - Φ (z) < \frac{1}{z} φ (z),

$\frac{z}{1+z^2}\varphi(z) < 1-\Phi(z) < \frac{1}{z}\varphi(z),$

φ

$\varphi$

Anders als das und was andere Leute gesagt haben, können Sie auch versuchen, das Binomial direkt zu verwenden, vielleicht mit etwas Stirling.

(*) Einige neuere Aussagen über die Ungleichheit von Slud lassen einige dieser Bedingungen außer Acht. Ich habe die in Sluds Papier reproduziert.

— matus
quelle

7

Der Satz von de Moivre-Laplace zeigt, dass Variablen wieNach einer geeigneten Normalisierung und unter bestimmten Bedingungen wird die Verteilung zu einer Normalverteilung konvergieren. Das reicht, wenn Sie konstante Untergrenzen wünschen. $|T\cap S_1|$

Für untere Schranken wie benötigen Sie ein etwas feineres Werkzeug. Hier ist ein Hinweis, den ich kenne (aber nur aus Versehen - ich hatte noch nie die Gelegenheit, eine solche Ungleichung selbst zu verwenden). Einige explizite untere Schranken für die Endwahrscheinlichkeiten von Binomialverteilungen sind in Theorem 1.5 des Buches Random Graphs von Béla Bollobás, Cambridge, 2. Auflage, angegeben, in dem auf eine Einführung in die Wahrscheinlichkeit und ihre Anwendungen von Feller und Foundations of Probability von Rényi verwiesen wird. $n^{-c}$

— Colin McQuillan
quelle

4

Das verallgemeinerte Littlewood-Offord-Theorem ist nicht genau das, was Sie wollen, aber es gibt das, was ich als "umgekehrtes Chernoff" bezeichne, indem es zeigt, dass es unwahrscheinlich ist, dass die Summe der Zufallsvariablen in einen kleinen Bereich um einen bestimmten Wert fällt (einschließlich die Erwartung). Vielleicht wird es nützlich sein.

Formal lautet der Satz wie folgt.

Verallgemeinerter Littlewood-Offord-Satz : Sei und reelle Zahlen, so dass for und lassen unabhängige Zufallsvariablen sein, die die Werte Null und Eins haben. Nehmen wir für , dass für alle . Dann, für jedes , Wobei eine Konstante ist, die nur von abhängt . $a_1, \ldots, a_n$ $s>0$ $|a_i| \ge s$ $1 \le i \le n$ $X_1, \ldots, X_n$ $0 < p \le \frac{1}{2}$ $p \le \Pr[X_i = 0] \le 1-p$ $1 \le i \le n$ $r \in \mathcal{R}$

Pr [r \leq \sum_{i = 1}^{n} a_{i} X_{i} < r + s] \leq \frac{c_{p}}{\sqrt{n}}

$\Pr \left[ r \le \sum_{i=1}^{n}{a_iX_i} < r+s\right] \le \frac{c_p}{\sqrt{n}}$

c_{p}

$c_p$

p

$p$

— Lev Reyzin
quelle

3

Es kann für andere hilfreich sein zu wissen, dass diese Art von Ergebnis auch als "kleine Kugelungleichheit" bezeichnet wird und Nguyen und Vu eine hervorragende Umfrage haben. People.math.osu.edu/nguyen.1261/cikk/LO-survey.pdf . Meine Sichtweise hier unterscheidet sich geringfügig von Ihrer. Ich stelle mir einen "umgekehrten Chernoff" vor, der eine niedrigere Schätzung der Wahrscheinlichkeitsmasse des kleinen Balls um 0 ergibt. Ich stelle mir eine kleine Ballungleichung vor, die qualitativ besagt, dass die Wahrscheinlichkeit des kleinen Balls durch den Ball bei 0 maximiert wird Sense Reverse-Chernoff-Schranken sind in der Regel leichter zu beweisen als kleine Ballungleichungen.

— Sasho Nikolov

3

Der Exponent in der Standard-Chernoff-Grenze, wie er in Wikipedia angegeben ist, ist eng für Zufallsvariablen mit einem Wert von 0/1. Lassen und lassen eine Folge von unabhängigen Zufallsvariablen , so dass für jedes , und . Dann für jede , $0<p<1$ $X_1,X_2,\ldots$ $i$ $\Pr[X_i=1]=p$ $\Pr[X_i=0]=1-p$ $\varepsilon>0$

\frac{2^{- D (p + ε ‖ p) \cdot n}}{n + 1} \leq Pr [\sum_{i = 1}^{n} X_{i} \geq (p + ε) n] \leq 2^{- D (p + ε ‖ p) \cdot n} .

$\begin{equation} \frac{2^{-D(p+\varepsilon\| p)\cdot n}}{n+1}\leq \Pr\left[ \sum_{i=1}^n X_i \geq (p+\varepsilon)n\right]\leq 2^{-D(p+\varepsilon\| p)\cdot n}. \end{equation}$

Hier ist , was die Kullback-Leibler-Divergenz zwischen Bernoulli-Zufall ist Variablen mit den Parametern und . $D(x\| y)=x \log_2(x/y)+(1-x)\log_2((1-x)/(1-y))$ $x$ $y$

Wie erwähnt, wird die obere Schranke in der obigen Ungleichung auf Wikipedia ( https://en.wikipedia.org/wiki/Chernoff_bound ) unter dem Namen "Chernoff-Hoeffding Theorem, additive Form" bewiesen . Die Untergrenze kann zB mit der "Methode der Typen" nachgewiesen werden. Siehe Lemma II.2 in [1]. Dies wird auch im klassischen Lehrbuch zur Informationstheorie von Cover und Thomas behandelt.

[1] Imre Csiszár: Die Methode der Typen. IEEE-Transaktionen zur Informationstheorie (1998). http://dx.doi.org/10.1109/18.720546

— JWM
quelle

Es ist auch erwähnenswert, dass und für den allgemeinen Fall von es ist . Dies zeigt, dass bei die typische -Bindung scharf ist. (Und wenn für ).

D (p + δ p ‖ p) = \frac{p}{2 - 2 p} δ^{2} + O (δ^{3})

$D(p+\delta p\|p)=\frac{p}{2-2p}\delta^2+O(\delta^3)$

p = 1 / 2

$p=1/2$

\frac{1}{2} δ^{2} + O (δ^{4})

$\frac{1}{2}\delta^2+O(\delta^4)$

δ = O (n^{- 1 / 3})

$\delta=O(n^{-1/3})$

e^{- C δ^{2}}

$e^{-C \delta^2}$

δ = O (n^{- 1 / 4})

$\delta=O(n^{-1/4})$

p = 1 / 2

$p=1/2$

— Thomas Ahle