Statistischer Abstand zwischen einheitlicher und voreingenommener Münze

Lassen die gleichmäßige Verteilung über seine Bits, und lassen die Verteilung über seine Bits , wobei die Bits sind unabhängig , und jedes Bit ist mit einer Wahrscheinlichkeit . Trifft es zu, dass der statistische Abstand zwischen und ist , wenn ? $U$ $n$ $D$ $n$ $1$ $1/2-\epsilon$ $D$ $U$ $\Omega(\epsilon \sqrt{n})$ $n \le 1/\epsilon^2$

pr.probability

— Manu
quelle

Ja. Der statistische Abstand zwischen und beträgt mindestens , was ; siehe zB die Antwort von matus hier: cstheory.stackexchange.com/questions/14471/…

U

$U$

V

$V$

{P r}_{U} (\sum x_{i} > n / 2) - {P r}_{D} (\sum x_{i} > n / 2)

$\mathrm{Pr}_U(\sum x_i > n/2) - \mathrm{Pr}_D(\sum x_i > n/2)$

Ω (ε \sqrt{n})

$\Omega(\varepsilon \sqrt{n})$

— Yury

Vielen Dank. Erklären Sie vielleicht, wie Sie dies aus dem erhalten, was Matus in einer Antwort geschrieben hat, die ich akzeptieren kann.

— Manu

Möglicherweise nützlich: cstheory.stackexchange.com/q/22328/5038 , stats.stackexchange.com/q/17405/2921 .

— DW

In Bezug auf Matus 'Antwort können Sie es besser machen als Sluds Ungleichung. siehe (2.13,2.14) in arxiv.org/abs/1606.08920

— Aryeh

Antworten:

Bezeichne die zufälligen Bits mit . Per Definition beträgt der statistische Abstand zwischen und für jedes mindestens . Wir wählen . $x_1,\dots, x_n$ $U$ $D$ $\Pr_U\left(\sum x_i \geq t\right) - \Pr_D\left(\sum x_i \geq t\right)$ $t$ $t = n/2 + \sqrt{n}$

Beachten Sie, dass für eine absolute Konstante . Wenn , beträgt der statistische Abstand mindestens , und wir sind fertig. Wir nehmen also an, dass . $\Pr_U\left(\sum x_i \geq t\right) \geq c_1$ $c_1 > 0$ $\Pr_D\left(\sum x_i \geq t\right) \leq c_1/2$ $c_1/2$ $\Pr_D\left(\sum x_i \geq t\right) \geq c_1/2$

Sei für iid Bernoulli-Zufallsvariablen mit . Unser Ziel ist es zu beweisen, dass . Nach dem Mittelwertsatz ist für einige . Nun werden wir beweisen, dass ; Dies bedeutet, dass der gewünschte statistische Abstand je nach Bedarf mindestens beträgt . $f(s) = \Pr\left(\sum x_i \geq t\right)$ $x_1,\dots, x_n$ $\Pr(x_i = 1) = 1/2-s$ $f(0) - f(\varepsilon) = \Omega(\varepsilon \sqrt{n})$

f (0) - f (ε) = - ε f^{'} (ξ),

$f(0) - f(\varepsilon) = -\varepsilon f'(\xi),$

ξ \in (0, ε)

$\xi \in (0, \varepsilon)$

- f^{'} (ξ) \geq Ω (\sqrt{n})

$-f'(\xi) \geq \Omega(\sqrt{n})$

Ω (\sqrt{n} ε)

$\Omega(\sqrt{n} \varepsilon)$

Schreiben Sie, und Beachten Sie, dass Somit,

f (ξ) = \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k},

$f(\xi) = \sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^k \left(\frac12+\xi\right)^{n-k},$

\begin{aligned} f^{'} (ξ) & = \sum_{k \geq t} (\binom{n}{k}) (- k {(\frac{1}{2} - ξ)}^{k - 1} {(\frac{1}{2} + ξ)}^{n - k} + (n - k) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k - 1}) \\ = - \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k} \frac{k / 2 + k ξ - (n - k) / 2 + (n - k) ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} . \end{aligned}

$\begin{align} f'(\xi) &= \sum_{k\geq t} \binom{n}{k} \left(-k \left(\frac12 - \xi\right)^{k-1} \left(\frac12+\xi\right)^{n-k} + (n-k) \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k-1}\right) \\ &= -\sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k}\frac{k/2 + k\xi - (n-k)/2 + (n-k)\xi}{(1/2 - \xi)(1/2 +\xi)}. \end{align}$

\frac{k / 2 + k ξ - (n - k) / 2 + (n - k) ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} = \frac{(2 k - n) / 2 + n ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} \geq 2 (2 t - n) = 4 \sqrt{n} .

$\frac{k/2 + k\xi - (n-k)/2 + (n-k)\xi}{\left(1/2 - \xi\right)\left(1/2 +\xi\right)} = \frac{(2k-n)/2 + n\xi}{(1/2 - \xi)(1/2 +\xi)} \geq 2(2t - n) = 4\sqrt{n}.$

\begin{aligned} - f^{'} (ξ) & \geq 4 \sqrt{n} \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k} \\ = 4 \sqrt{n} f (ξ) \geq 4 \sqrt{n} f (ε) \geq 4 \sqrt{n} \cdot (c_{1} / 2) . \end{aligned}

$\begin{align}-f'(\xi) &\geq 4\sqrt{n} \sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k} \\&= 4\sqrt{n} f(\xi) \geq 4\sqrt{n} f(\varepsilon) \geq 4\sqrt{n}\cdot (c_1/2).\end{align}$ Hier haben wir die Annahme verwendet, dass . Wir haben gezeigt, dass .

f (ε) = \underset{D}{Pr} (x_{1} + \dots + x_{n} \geq t) \geq c_{1} / 2

$f(\varepsilon) = \Pr_D(x_1+\dots+x_n \geq t) \geq c_1/2$

- f^{'} (ξ) = Ω (\sqrt{n})

$-f'(\xi) = \Omega(\sqrt{n})$

— Yury
quelle

Ein etwas elementarerer und etwas chaotischerer Beweis (oder zumindest fühlt es sich für mich so an).

Schreiben Sie der , wobei angenommen wird. $\varepsilon = \frac{\gamma}{\sqrt{n}}$ $\gamma\in [0,1)$

Wir setzen den Ausdruck von explizit nach unten : $\operatorname{d}_{\rm TV}{(P,U)}$

\begin{aligned} 2 d_{T V} (P, U) & = \sum_{x \in {0, 1}^{n}} | {(\frac{1}{2} + \frac{γ}{\sqrt{n}})}^{| x |} {(\frac{1}{2} - \frac{γ}{\sqrt{n}})}^{n - | x |} - \frac{1}{2^{n}} | \\ = \frac{1}{2^{n}} \sum_{k = 0}^{n} (\binom{n}{k}) | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \\ \geq \frac{1}{2^{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} (\binom{n}{k}) | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \\ \geq \frac{C}{\sqrt{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \end{aligned}

$\begin{align*} 2\operatorname{d}_{\rm TV}{(P,U)} &= \sum_{x\in\{0,1\}^n} \left\lvert{ \left( \frac{1}{2} + \frac{\gamma }{\sqrt{n}} \right)^{\lvert{x}\rvert}\left( \frac{1}{2} - \frac{\gamma }{\sqrt{n}} \right)^{n-\lvert{x}\rvert} - \frac{1}{2^n} }\right\rvert \\ &= \frac{1}{2^n}\sum_{k=0}^n \binom{n}{k}\left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 }\right\rvert \\ &\geq \frac{1}{2^n}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \binom{n}{k}\left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 }\right\rvert \\ &\geq \frac{C}{\sqrt{n}}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 } \right\rvert \end{align*}$ wobei eine absolute Konstante ist. Wir unterbinden jeden Summanden separat unter: Fixieren von und Schreiben von , sodass jeder Summand durch eine konvergierende Größe niedriger begrenzt ist (wenn ) bis

C > 0

$C>0$

k

$k$

ℓ = k - \frac{n}{2} \in [\sqrt{n}, 2 \sqrt{n}]

$\ell = k-\frac{n}{2} \in [\sqrt{n},2\sqrt{n}]$

\begin{aligned} {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} & = {(1 - \frac{4 γ^{2}}{n})}^{n / 2} {(\frac{1 + \frac{2 γ}{\sqrt{n}}}{1 - \frac{2 γ}{\sqrt{n}}})}^{ℓ} \\ \geq {(1 - \frac{4 γ^{2}}{n})}^{n / 2} {(\frac{1 + \frac{2 γ}{\sqrt{n}}}{1 - \frac{2 γ}{\sqrt{n}}})}^{\sqrt{n}} \to_{n \to \infty}^{} e^{4 γ - 2 γ^{2}} \end{aligned}

$\begin{align*} \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} &= \left( 1 - \frac{4\gamma ^2}{n} \right)^{n/2}\left( \frac{1 + \frac{2\gamma }{\sqrt{n}}}{1 - \frac{2\gamma }{\sqrt{n}}}\right)^\ell \\ &\geq \left( 1 - \frac{4\gamma ^2}{n} \right)^{n/2}\left( \frac{1 + \frac{2\gamma }{\sqrt{n}}}{1 - \frac{2\gamma }{\sqrt{n}}}\right)^{\sqrt{n}} \xrightarrow[n\to\infty]{} e^{4\gamma -2\gamma ^2} \end{align*}$

n \to \infty

$n\to \infty$

e^{4 γ - 2 γ^{2}} - 1 > 4 γ - 2 γ^{2} > 2 γ

$e^{4\gamma -2\gamma ^2}-1 > 4\gamma -2\gamma ^2 > 2\gamma$ ; was bedeutet, dass jedes . Zusammenfassend ergibt dies wie behauptet.

Ω (γ)

$\Omega(\gamma )$

\begin{aligned} 2 d_{T V} (P, U) & \geq \frac{C}{\sqrt{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} Ω (γ) = Ω (γ) = Ω (ε \sqrt{n}) \end{aligned}

$\begin{align*} 2\operatorname{d}_{\rm TV}{(P,U)} &\geq \frac{C}{\sqrt{n}}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \Omega(\gamma ) = \Omega(\gamma) = \Omega(\varepsilon\sqrt{n}) \end{align*}$

— Clement C.
quelle

(Die Verwendung von Hellinger als Proxy aufgrund seiner guten Eigenschaften für Produktverteilungen ist verlockend und würde viel schneller sein, aber es würde einen Verlust durch einen quadratischen Faktor in der unteren Endgrenze geben.)

— Clement C.

Nett! Ich mag den elementaren Ansatz. Wir sollten in der Lage sein, es auch in nicht asymptotisch zu machen. Eine Möglichkeit besteht darin, , dann benutze die schöne Ungleichung . Ein bisschen chaotischer.

n

$n$

{(\frac{1 + z}{1 - z})}^{\sqrt{n}} \geq {(1 + 2 z)}^{\sqrt{n}}

$\left(\frac{1+z}{1-z}\right)^{\sqrt{n}} \geq \left(1 + 2z\right)^{\sqrt{n}}$

1 + w \geq e^{w - w^{2} / 2}

$1+w \geq e^{w - w^2/2}$

— Usul