Spezielle Wahrscheinlichkeitsverteilung


12

Wenn p(x) eine Wahrscheinlichkeitsverteilung mit Nicht-Null-Werten für [0,+) , für welche Art (en) von p(x) gibt es eine Konstante c>0 so dass 0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ2für alle0<ϵ<1?

Die obige Ungleichung ist tatsächlich eine Kullback-Leibler-Divergenz zwischen der Verteilung p(x) und einer komprimierten Version davon (1+ϵ)p(x(1+ϵ)) . Ich habe herausgefunden, dass diese Ungleichung für Exponential-, Gamma- und Weibull-Verteilungen gilt, und ich bin interessiert zu wissen, ob dies für eine größere Klasse von Wahrscheinlichkeitsverteilungen funktioniert.

Irgendeine Idee, was diese Ungleichung bedeutet?


3
Da ϵ positiv ist, würde dies eher komprimiert (in der x-Richtung) als gedehnt.
Glen_b -Reinstate Monica

2
Diese Frage ist nicht eindeutig: Was sind Ihre Quantifizierer? Haben Sie diese Ungleichheit wollen halten alle ϵ , mindestens ein ϵ , oder etwas anderes? Ist c gegeben , a priori oder meinen Sie sollte es mindestens einen solchen Wert existieren von c ? Und da Sie Klassen von Wahrscheinlichkeitsverteilungen erwähnen, meinen Sie mit " p(x) " eine bestimmte Verteilung oder meinen Sie vielleicht eine parametrische Familie davon?
whuber

2
@whuber Danke für deine Kommentare. Ich habe meine Problemstellung korrigiert, um die genannten Probleme zu klären. Ich meine, für was p(x) die obige Ungleichung? Die Antwort könnte entweder darin bestehen, eine parametrische Verteilungsfamilie einzuführen oder eine Differentialgleichung für vorzuschlagen p(x), die ausreicht und die gewünschte Ungleichung ergibt.
Sus20200

2
Würde diese Ungleichung nicht für ein p (x) funktionieren, das stetig und mit unendlicher Unterstützung ist? Sie berechnen die KL-Divergenz innerhalb einer Parameterfamilie ( ϵp(x(1+ϵ)) . Wenn die KL bei 0 differenzierbar ist, ist ihre Ableitung 0. Nehmen Sie C als Maximum der Krümmung von KL (z ϵ[0,1] .) haben wir die gebunden Mit zusätzlicher Arbeit, könnte es möglich sein, gebundenes C von Eigenschaften von p
Guillaume Dehaene

1
Es kann unendlich sein, solange L=limx0p(x)x=0 . Die Erweiterung erster Ordnung des KL ist Lϵ+O(ϵ2)
Arthur B.

Antworten:


4

Vorbereitungen

Schreiben

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

Die Logarithmen und die Beziehung zwischen und p ( x ( 1 + ϵ ) ) legen nahe, sowohl p als auch sein Argument als Exponentiale auszudrücken . Zu diesem Zweck definierenp(x)p(x(1+ϵ))p

q(y)=log(p(ey))

für alle reellen für die die rechte Seite definiert ist und gleich - ∞ ist, wo immer p ( e y ) = 0 ist . Beachten Sie, dass die Änderung der Variablen x = e y mit d x = e y d y einhergeht und (wobei p die Dichte einer Verteilung ist), dass das Gesetz der Gesamtwahrscheinlichkeit dadurch ausgedrückt werden kann alsyp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

Nehmen wir an, wenn y ± . eq(y)+y0y± Dies schließt Wahrscheinlichkeitsverteilungen mit unendlich vielen Dichtespitzen nahe 0 oder ∞ aus . Insbesondere wenn die Schwänze von p irgendwann monoton sind, impliziert ( 1 ) diese Annahme und zeigt, dass es sich nicht um eine schwere handelt.p0p(1)

Beachten Sie dies auch, um die Arbeit mit den Logarithmen zu vereinfachen

1+ϵ=eϵ+O(ϵ2).

Da die folgenden Berechnungen bis zu einem Vielfachen von , definieren Sieϵ2

δ=log(1+ϵ).

Wir könnten genauso gut ersetzen durch e δ mit δ = 0 entspricht , ε = 0 und positive δ entsprechend positive ε .1+ϵeδδ=0ϵ=0δϵ

Analyse

Eine offensichtliche Art und Weise , in der die Ungleichheit wäre für die integrierte Fail zu divergieren für einige ε & egr ; ( 0 , 1 ] . Dies geschieht, wenn, zum Beispiel, dort zu sein , waren alles richtiges Intervall [ u , v ] positiver Zahlen, egal wie klein, in denen p gleich Null waren , aber p nicht Null waren auf dem Intervall [ u - ε , v - ε ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]. Dies würde dazu führen, dass der Integrand mit positiver Wahrscheinlichkeit unendlich ist.

Da die Frage bezüglich der Natur von unspezifisch ist , könnten wir uns mit technischen Fragen darüber beschäftigen, wie glatt p sein könnte. Vermeiden wir solche Probleme und hoffen immer noch, einen Einblick zu gewinnen, indem wir annehmen, dass q überall so viele Derivate hat, wie wir verwenden möchten. (Zwei werden ausreichen, wenn q ' ' stetig ist.) Da dies garantiert, dass q an eine begrenzte Menge gebunden bleibt, impliziert dies, dass p ( x ) niemals Null ist, wenn x > 0 ist .ppqqqp(x)x>0

Man beachte, dass die Frage wirklich das Verhalten von betrifft, wenn ϵ von oben gegen Null geht. Da dieses Integral eine stetige Funktion von ϵ im Intervall ( 0 , 1 ) ist , erreicht es ein gewisses Maximum von M p ( a ), wenn ϵ auf ein beliebiges positives Intervall [ a , 1 ] beschränkt ist , wodurch wir c = M p ( a ) / a 2 , weil offensichtlichIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

bringt die Ungleichung zum Laufen. Deshalb müssen wir uns nur mit der Berechnung modulo befassen .ϵ2

Lösung

Mit den Änderungen der Variablen von nach y , von p nach q und von ϵ nach δ berechnen wir I p ( ϵ ) bis zur zweiten Ordnung in ϵ (oder δ ) in der Hoffnung, eine Vereinfachung zu erreichen. Zu diesem Zweck definierenxypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

to be the order-2 remainder in the Taylor expansion of q around y.

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

Changing variables to q(y)+y in the left hand integral shows it must vanish, as remarked in the assumption following (1). Changing variables back to x=ey in the right hand integral gives

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

The inequality holds (under our various technical assumptions) if and only if the coefficient of δ2 on the right hand side is finite.

Interpretation

This is a good point to stop, because it appears to uncover the essential issue: Ip(ϵ) is bounded by a quadratic function of ϵ precisely when the quadratic error in the Taylor expansion of q doesn't explode (relative to the distribution) as y approaches ±.

Let's check some of the cases mentioned in the question: the Exponential and Gamma distributions. (The Exponential is a special case of the Gamma.) We never have to worry about scale parameters, because they merely change the units of measurement. Only non-scale parameters matter.

Here, because p(x)=xkex for k>1,

q(y)=ey+kylogΓ(k+1).
The Taylor expansion around an arbitrary y is
Constant+(key)δey2δ2+.
Taylor's Theorem with Remainder implies R(log(x),δ) is dominated by ey+δ/2<x for sufficiently small δ. Since the expectation of x is finite, the inequality holds for Gamma distributions.

Similar calculations imply the inequality for Weibull distributions, Half-Normal distributions, Lognormal distributions, etc. In fact, to obtain counterexamples we would need to violate at least one assumption, forcing us to look at distributions where p vanishes on some interval, or is not continuously twice differentiable, or has infinitely many modes. These are easy tests to apply to any family of distributions commonly used in statistical modeling.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.