Spezielle Wahrscheinlichkeitsverteilung

Wenn $p(x)$ eine Wahrscheinlichkeitsverteilung mit Nicht-Null-Werten für $[0,+\infty)$ , für welche Art (en) von $p(x)$ gibt es eine Konstante $c\gt 0$ so dass $\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2$ für alle $0\lt\epsilon\lt 1$ ?

Die obige Ungleichung ist tatsächlich eine Kullback-Leibler-Divergenz zwischen der Verteilung $p(x)$ und einer komprimierten Version davon ${(1+\epsilon)}p({x}{(1+\epsilon)})$ . Ich habe herausgefunden, dass diese Ungleichung für Exponential-, Gamma- und Weibull-Verteilungen gilt, und ich bin interessiert zu wissen, ob dies für eine größere Klasse von Wahrscheinlichkeitsverteilungen funktioniert.

Irgendeine Idee, was diese Ungleichung bedeutet?

— Sus20200
quelle

ϵ

$\epsilon$ positiv ist, würde dies eher komprimiert (in der x-Richtung) als gedehnt.

— Glen_b -Reinstate Monica

Diese Frage ist nicht eindeutig: Was sind Ihre Quantifizierer? Haben Sie diese Ungleichheit wollen halten alle

ϵ

$\epsilon$ , mindestens ein

ϵ

$\epsilon$ , oder etwas anderes? Ist

c

$c$ gegeben , a priori oder meinen Sie sollte es mindestens einen solchen Wert existieren von

c

$c$ ? Und da Sie Klassen von Wahrscheinlichkeitsverteilungen erwähnen, meinen Sie mit "

p (x)

$p(x)$ " eine bestimmte Verteilung oder meinen Sie vielleicht eine parametrische Familie davon?

— whuber

@whuber Danke für deine Kommentare. Ich habe meine Problemstellung korrigiert, um die genannten Probleme zu klären. Ich meine, für was

p (x)

$p(x)$ die obige Ungleichung? Die Antwort könnte entweder darin bestehen, eine parametrische Verteilungsfamilie einzuführen oder eine Differentialgleichung für

vorzuschlagen

p (x)

$p(x)$ , die ausreicht und die gewünschte Ungleichung ergibt.

— Sus20200

Würde diese Ungleichung nicht für ein p (x) funktionieren, das stetig und mit unendlicher Unterstützung ist? Sie berechnen die KL-Divergenz innerhalb einer Parameterfamilie (

ϵ \to p (x (1 + ϵ))

$\epsilon \rightarrow p(x(1+\epsilon))$ . Wenn die KL bei 0 differenzierbar ist, ist ihre Ableitung 0. Nehmen Sie

C

$C$ als Maximum der Krümmung von KL (z

ϵ \in [0, 1]

$\epsilon \in [0,1]$ .) haben wir die gebunden Mit zusätzlicher Arbeit, könnte es möglich sein, gebundenes C von Eigenschaften von p

— Guillaume Dehaene

Es kann unendlich sein, solange

L = lim_{x \to 0} p (x) x = 0

$L = \lim_{x \rightarrow 0} p(x)x = 0$ . Die Erweiterung erster Ordnung des KL ist

L ϵ + O (ϵ^{2})

$L \epsilon + O(\epsilon^2)$

— Arthur B.

Vorbereitungen

Schreiben

I_{p} (ϵ) = \int_{0}^{\infty} p (x) \log (\frac{p (x)}{(1 + ϵ) p (x (1 + ϵ))}) d x .

$\mathcal{I}_p(\epsilon) = \int_0^\infty p(x) \log\left(\frac{p(x)}{(1+\epsilon)p(x(1+\epsilon))}\right)\, dx.$

Die Logarithmen und die Beziehung zwischen und legen nahe, sowohl als auch sein Argument als Exponentiale auszudrücken . Zu diesem Zweck definieren $p(x)$ $p(x(1+\epsilon))$ $p$

q (y) = \log (p (e^{y}))

$q(y) = \log(p(e^y))$

für alle reellen für die die rechte Seite definiert ist und gleich wo immer . Beachten Sie, dass die Änderung der Variablen mit und (wobei die Dichte einer Verteilung ist), dass das Gesetz der Gesamtwahrscheinlichkeit dadurch ausgedrückt werden kann als $y$ $-\infty$ $p(e^y)=0$ $x=e^y$ $dx=e^y dy$ $p$

\begin{matrix} (1) & 1 = \int_{0}^{\infty} p (x) d x = \int_{R} e^{q (y) + y} d y . \end{matrix}

$1 = \int_0^\infty p(x)dx = \int_\mathbb{R} e^{q(y)+y} dy.\tag{1}$

Nehmen wir an, wenn . $e^{q(y)+y}\to 0$ $y\to\pm\infty$ Dies schließt Wahrscheinlichkeitsverteilungen mit unendlich vielen Dichtespitzen nahe oder . Insbesondere wenn die Schwänze von irgendwann monoton sind, impliziert diese Annahme und zeigt, dass es sich nicht um eine schwere handelt. $p$ $0$ $\infty$ $p$ $(1)$

Beachten Sie dies auch, um die Arbeit mit den Logarithmen zu vereinfachen

1 + ϵ = e^{ϵ} + O (ϵ^{2}) .

$1+\epsilon = e^\epsilon + O(\epsilon^2).$

Da die folgenden Berechnungen bis zu einem Vielfachen von , definieren Sie $\epsilon^2$

δ = \log (1 + ϵ) .

$\delta = \log(1+\epsilon).$

Wir könnten genauso gut ersetzen durch mit entspricht , und positive entsprechend positive . $1+\epsilon$ $e^\delta$ $\delta=0$ $\epsilon=0$ $\delta$ $\epsilon$

Analyse

Eine offensichtliche Art und Weise , in der die Ungleichheit wäre für die integrierte Fail zu divergieren für einige . Dies geschieht, wenn, zum Beispiel, dort zu sein , waren alles richtiges Intervall positiver Zahlen, egal wie klein, in denen gleich Null waren , aber nicht Null waren auf dem Intervall $\mathcal{I}_p(\epsilon)$ $\epsilon \in (0, 1]$ $[u, v]$ $p$ $p$ $[u-\epsilon, v-\epsilon]$ . Dies würde dazu führen, dass der Integrand mit positiver Wahrscheinlichkeit unendlich ist.

Da die Frage bezüglich der Natur von unspezifisch ist , könnten wir uns mit technischen Fragen darüber beschäftigen, wie glatt könnte. Vermeiden wir solche Probleme und hoffen immer noch, einen Einblick zu gewinnen, indem wir annehmen, dass überall so viele Derivate hat, wie wir verwenden möchten. (Zwei werden ausreichen, wenn stetig ist.) Da dies garantiert, dass an eine begrenzte Menge gebunden bleibt, impliziert dies, dass niemals Null ist, wenn . $p$ $p$ $q$ $q^{\prime\prime}$ $q$ $p(x)$ $x \gt 0$

Man beachte, dass die Frage wirklich das Verhalten von betrifft, wenn von oben gegen Null geht. Da dieses Integral eine stetige Funktion von im Intervall , erreicht es ein gewisses Maximum von wenn auf ein beliebiges positives Intervall , wodurch wir , weil offensichtlich $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\epsilon$ $(0,1]$ $M_p(a)$ $\epsilon$ $[a,1]$ $c = M_p(a)/a^2$

c ϵ^{2} = M_{p} (a) {(\frac{ϵ}{a})}^{2} \geq M_{p} (a) \geq I_{p} (ϵ)

$c\epsilon^2 = M_p(a) \left(\frac{\epsilon}{a}\right)^2 \ge M_p(a) \ge \mathcal{I}_p(\epsilon)$

bringt die Ungleichung zum Laufen. Deshalb müssen wir uns nur mit der Berechnung modulo befassen . $\epsilon^2$

Lösung

Mit den Änderungen der Variablen von nach , von nach und von nach berechnen wir bis zur zweiten Ordnung in (oder ) in der Hoffnung, eine Vereinfachung zu erreichen. Zu diesem Zweck definieren $x$ $y$ $p$ $q$ $\epsilon$ $\delta$ $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\delta$

R (y, δ) δ^{2} = q (y + δ) - q (y) - δ q^{'} (y)

$\mathcal{R}(y, \delta) \delta^2 = q(y+\delta) - q(y) - \delta q^\prime(y)$

to be the order- $2$ remainder in the Taylor expansion of $q$ around $y$ .

\begin{aligned} I_{p} (ϵ) & = \int_{R} e^{q (y) + y} (q (y) - q (y + δ) - δ) d y \\ = - \int_{R} e^{q (y) + y} (δ + δ q^{'} (y) + R (y, δ) δ^{2}) d y \\ = - δ \int_{R} e^{q (y) + y} (1 + q^{'} (y)) d y - δ^{2} \int_{R} e^{q (y) + y} R (y, δ) d y . \end{aligned}

$\eqalign{ \mathcal{I}_p(\epsilon) &= \int_\mathbb{R}e^{q(y) + y} \left(q(y) - q(y+\delta) - \delta\right)\, dy \\ &=-\int_\mathbb{R}e^{q(y) + y} \left(\delta + \delta q^\prime(y) + \mathcal{R}(y, \delta) \delta^2 \right)\, dy \\ &= -\delta\int_\mathbb{R}e^{q(y) + y} \left(1+q^\prime(y)\right)\, dy -\delta^2\int_\mathbb{R}e^{q(y) + y} \mathcal{R}(y, \delta)\, dy. }$

Changing variables to $q(y)+y$ in the left hand integral shows it must vanish, as remarked in the assumption following $(1)$ . Changing variables back to $x=e^y$ in the right hand integral gives

I_{p} (ϵ) = - δ^{2} \int_{R} p (x) R (\log (x), δ) d y = - δ^{2} E_{p} (R (\log (x), δ)) .

$\mathcal{I}_p(\epsilon) = - \delta^2 \int_\mathbb{R} p(x) \mathcal{R}(\log(x), \delta)\, dy = -\delta^2 \mathbb{E}_p\left(\mathcal{R}(\log(x), \delta)\right).$

The inequality holds (under our various technical assumptions) if and only if the coefficient of $\delta^2$ on the right hand side is finite.

Interpretation

This is a good point to stop, because it appears to uncover the essential issue: $\mathcal{I}_p(\epsilon)$ is bounded by a quadratic function of $\epsilon$ precisely when the quadratic error in the Taylor expansion of $q$ doesn't explode (relative to the distribution) as $y$ approaches $\pm\infty$ .

Let's check some of the cases mentioned in the question: the Exponential and Gamma distributions. (The Exponential is a special case of the Gamma.) We never have to worry about scale parameters, because they merely change the units of measurement. Only non-scale parameters matter.

Here, because $p(x) = x^k e^{-x}$ for $k \gt -1$ ,

q (y) = - e^{y} + k y - \log Γ (k + 1) .

$q(y) = -e^y + k y - \log\Gamma(k+1).$ The Taylor expansion around an arbitrary

y

$y$ is

Constant + (k - e^{y}) δ - \frac{e^{y}}{2} δ^{2} + \dots .

$\text{Constant} + (k-e^y)\delta - \frac{e^y}{2}\delta^2 + \cdots.$ Taylor's Theorem with Remainder implies

R (\log (x), δ)

$\mathcal{R}(\log(x),\delta)$ is dominated by

e^{y + δ} / 2 < x

$e^{y+\delta}/2 \lt x$ for sufficiently small

δ

$\delta$ . Since the expectation of

x

$x$ is finite, the inequality holds for Gamma distributions.

Similar calculations imply the inequality for Weibull distributions, Half-Normal distributions, Lognormal distributions, etc. In fact, to obtain counterexamples we would need to violate at least one assumption, forcing us to look at distributions where $p$ vanishes on some interval, or is not continuously twice differentiable, or has infinitely many modes. These are easy tests to apply to any family of distributions commonly used in statistical modeling.

— whuber
quelle