Vorbereitungen
Schreiben
Ip(ϵ)=∫∞0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.
Die Logarithmen und die Beziehung zwischen und p ( x ( 1 + ϵ ) ) legen nahe, sowohl p als auch sein Argument als Exponentiale auszudrücken . Zu diesem Zweck definierenp(x)p(x(1+ϵ))p
q(y)=log(p(ey))
für alle reellen für die die rechte Seite definiert ist und gleich - ∞ ist, wo immer p ( e y ) = 0 ist . Beachten Sie, dass die Änderung der Variablen x = e y mit d x = e y d y einhergeht und (wobei p die Dichte einer Verteilung ist), dass das Gesetz der Gesamtwahrscheinlichkeit dadurch ausgedrückt werden kann alsy−∞p(ey)=0x=eydx=eydyp
1=∫∞0p(x)dx=∫Req(y)+ydy.(1)
Nehmen wir an, wenn y → ± ∞ . eq(y)+y→0y→±∞ Dies schließt Wahrscheinlichkeitsverteilungen mit unendlich vielen Dichtespitzen nahe 0 oder ∞ aus . Insbesondere wenn die Schwänze von p irgendwann monoton sind, impliziert ( 1 ) diese Annahme und zeigt, dass es sich nicht um eine schwere handelt.p0∞p(1)
Beachten Sie dies auch, um die Arbeit mit den Logarithmen zu vereinfachen
1+ϵ=eϵ+O(ϵ2).
Da die folgenden Berechnungen bis zu einem Vielfachen von , definieren Sieϵ2
δ=log(1+ϵ).
Wir könnten genauso gut ersetzen durch e δ mit δ = 0 entspricht , ε = 0 und positive δ entsprechend positive ε .1+ϵeδδ=0ϵ=0δϵ
Analyse
Eine offensichtliche Art und Weise , in der die Ungleichheit wäre für die integrierte Fail zu divergieren für einige ε & egr ; ( 0 , 1 ] . Dies geschieht, wenn, zum Beispiel, dort zu sein , waren alles richtiges Intervall [ u , v ] positiver Zahlen, egal wie klein, in denen p gleich Null waren , aber p nicht Null waren auf dem Intervall [ u - ε , v - ε ]Ip(ϵ)ϵ∈(0,1][u,v]pp[u−ϵ,v−ϵ]. Dies würde dazu führen, dass der Integrand mit positiver Wahrscheinlichkeit unendlich ist.
Da die Frage bezüglich der Natur von unspezifisch ist , könnten wir uns mit technischen Fragen darüber beschäftigen, wie glatt p sein könnte. Vermeiden wir solche Probleme und hoffen immer noch, einen Einblick zu gewinnen, indem wir annehmen, dass q überall so viele Derivate hat, wie wir verwenden möchten. (Zwei werden ausreichen, wenn q ' ' stetig ist.) Da dies garantiert, dass q an eine begrenzte Menge gebunden bleibt, impliziert dies, dass p ( x ) niemals Null ist, wenn x > 0 ist .ppqq′′qp(x)x>0
Man beachte, dass die Frage wirklich das Verhalten von betrifft, wenn ϵ von oben gegen Null geht. Da dieses Integral eine stetige Funktion von ϵ im Intervall ( 0 , 1 ) ist , erreicht es ein gewisses Maximum von M p ( a ), wenn ϵ auf ein beliebiges positives Intervall [ a , 1 ] beschränkt ist , wodurch wir c = M p ( a ) / a 2 , weil offensichtlichIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2
cϵ2=Mp(a)(ϵa)2≥Mp(a)≥Ip(ϵ)
bringt die Ungleichung zum Laufen. Deshalb müssen wir uns nur mit der Berechnung modulo befassen .ϵ2
Lösung
Mit den Änderungen der Variablen von nach y , von p nach q und von ϵ nach δ berechnen wir I p ( ϵ ) bis zur zweiten Ordnung in ϵ (oder δ ) in der Hoffnung, eine Vereinfachung zu erreichen. Zu diesem Zweck definierenxypqϵδIp(ϵ)ϵδ
R(y,δ)δ2=q(y+δ)−q(y)−δq′(y)
to be the order-2 remainder in the Taylor expansion of q around y.
Ip(ϵ)=∫Req(y)+y(q(y)−q(y+δ)−δ)dy=−∫Req(y)+y(δ+δq′(y)+R(y,δ)δ2)dy=−δ∫Req(y)+y(1+q′(y))dy−δ2∫Req(y)+yR(y,δ)dy.
Changing variables to q(y)+y in the left hand integral shows it must vanish, as remarked in the assumption following (1). Changing variables back to x=ey in the right hand integral gives
Ip(ϵ)=−δ2∫Rp(x)R(log(x),δ)dy=−δ2Ep(R(log(x),δ)).
The inequality holds (under our various technical assumptions) if and only if the coefficient of δ2 on the right hand side is finite.
Interpretation
This is a good point to stop, because it appears to uncover the essential issue: Ip(ϵ) is bounded by a quadratic function of ϵ precisely when the quadratic error in the Taylor expansion of q doesn't explode (relative to the distribution) as y approaches ±∞.
Let's check some of the cases mentioned in the question: the Exponential and Gamma distributions. (The Exponential is a special case of the Gamma.) We never have to worry about scale parameters, because they merely change the units of measurement. Only non-scale parameters matter.
Here, because p(x)=xke−x for k>−1,
q(y)=−ey+ky−logΓ(k+1).
The Taylor expansion around an arbitrary
y is
Constant+(k−ey)δ−ey2δ2+⋯.
Taylor's Theorem with Remainder implies
R(log(x),δ) is dominated by
ey+δ/2<x for sufficiently small
δ. Since the expectation of
x is finite, the inequality holds for Gamma distributions.
Similar calculations imply the inequality for Weibull distributions, Half-Normal distributions, Lognormal distributions, etc. In fact, to obtain counterexamples we would need to violate at least one assumption, forcing us to look at distributions where p vanishes on some interval, or is not continuously twice differentiable, or has infinitely many modes. These are easy tests to apply to any family of distributions commonly used in statistical modeling.