EDIT: Originalversion hat einen absoluten Wert verfehlt. Es tut uns leid!!
Hallo Ian. Ich werde kurz zwei Beispielungleichungen skizzieren, eine mit einer Lipschitz-Bindung, die andere mit einer Bindung an die zweite Ableitung, und dann einige Schwierigkeiten in diesem Problem diskutieren. Obwohl ich überflüssig bin, stellt sich heraus, dass die Version der zweiten Ableitung recht gut ist, da ein Ansatz mit einer Ableitung erklärt, was mit mehr Ableitungen (über Taylor) passiert.
Erstens mit einer Lipschitz-Bindung: Überarbeiten Sie einfach die standardmäßige Jensen-Ungleichung. Der gleiche Trick gilt: Berechnen Sie die Taylor-Erweiterung zum erwarteten Wert.
Insbesondere sei das entsprechende Maß μ und setze m : = E ( x ) . Wenn f die Lipschitz-Konstante L hat , dann nach Taylors TheoremXμm:=E(x)fL
f( x ) = f( m ) + f′( z) ( x - m ) ≤ f( m ) + L | x - m | ,
wobei (beachte , dass x ≤ m , und x > m sind möglich). Verwenden Sie dies und überarbeiten Sie den Jensen-Beweis (ich bin paranoid und habe überprüft, dass der Standard tatsächlich auf Wikipedia ist).z∈ [ m , x ]x≤mx>m
E( f( X) )= ∫f( x )dμ ( x )≤f( m )∫dμ(x)+L∫|x−m|dμ(x)=f(E(X))+LE(|X−E(X)|).
Nun nehmen wir . In diesem Fall,|f′′(x)|≤λ
f(x)=f(m)+f′(m)(x−m)+f′′(z)(x−m)22≤f(m)+f′(m)(x−m)+λ(x−m)22,
und so
E(f(X))≤f(m)+f′(m)(E(X)−m)+λE((X−m)2)2=f(E(X))+λVar(X)2.
Ich möchte kurz ein paar Dinge erwähnen. Entschuldigung, wenn sie offensichtlich sind.
Zum einen kann man nicht einfach "wlog " sagen, indem man die Verteilung verschiebt, weil man die Beziehung zwischen f und μ ändert .E(X)=0fμ
Als nächstes muss die Grenze in irgendeiner Weise von der Verteilung abhängen. Um dies zu sehen, stellen Sie sich vor, dass und f ( x ) = x 2 sind . Unabhängig vom Wert von σ erhalten Sie immer noch f ( E ( X ) ) = f ( 0 ) = 0 . Andererseits ist E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2)f(x)=x2σf(E(X))=f( 0 ) = 0 . Durch Ändern von σ können Sie also die Lücke zwischen den beiden Größen beliebig machen! Intuitiv wird mehr Masse vom Mittelwert weggedrückt und somit für jede streng konvexe Funktion E ( f ( X ) )E( f( X) ) = E( X2) = σ2σE( f( X) ) zu.
Schließlich verstehe ich nicht, wie man eine Multiplikationsgrenze erhält, wie Sie vorschlagen. Alles, was ich in diesem Beitrag verwendet habe, ist Standard: Taylors Theorem und Derivatgrenzen sind in Statistikgrenzen Brot und Butter, und sie ergeben automatisch additive, nicht multiplikative Fehler.
Ich werde aber darüber nachdenken und etwas posten. Vage Intuition ist, dass es sehr anstrengende Bedingungen sowohl für die Funktion als auch für die Verteilung erfordert und dass der gebundene Zusatzstoff tatsächlich das Herzstück ist.