Grenzen auf

Wenn $f$ eine konvexe Funktion ist, dann besagt Jensens Ungleichung, dass $f(\textbf{E}[x]) \le \textbf{E}[f(x)]$ ist und mutatis mutandis, wenn $f$ konkav ist. Natürlich kann man im schlimmsten Fall $\textbf{E}[f(x)]$ in Bezug auf $f(\textbf{E}[x])$ für ein konvexes $f$ , aber gibt es eine Grenze, die in diese Richtung geht, wenn $f$ ist konvex, aber "nicht zu konvex"? Gibt es eine Standardgrenze, die Bedingungen für eine konvexe Funktion liefert $f$ (und möglicherweise auch die Verteilung, falls erforderlich), anhand derer Sie schließen können, dass $\textbf{E}[f(x)] \le \varphi(f)f(\textbf{E}[x])$ , wobei $\varphi(f)$ eine Funktion der Krümmung / des Konvexitätsgrades von $f$ ? Vielleicht so etwas wie ein Lipschitz-Zustand?

randomness pr.probability randomized-algorithms

— Ian
quelle

Abstimmung zum Abschluss als Off-Topic. math.stackexchange.com vielleicht?

— Aryabhata

Ich denke, dass diese Frage offen bleiben sollte; Dies ist die Art von Ungleichheit, die viele Arbeitstheoretiker regelmäßig für nützlich halten würden.

— Aaron Roth

Ich weiß, dass dies der reinen Mathematik näher kommt als die meisten der bisher gestellten Fragen, aber ich würde argumentieren, dass dies ein aktuelles Thema ist, da diese Art von Dingen häufig bei der Analyse von randomisierten Algorithmen auftaucht (was die Anwendung ist, in der ich mich befinde) Verstand). Ich denke, dass Mathematik, die in der Informatik häufig verwendet wird, als faires Spiel für Fragen betrachtet werden sollte.

— Ian

Stimme ab, um offen zu bleiben. definitiv zum Thema

— Suresh Venkat

Ich stimme auch dafür, offen zu bleiben.

— Jeffs

EDIT: Originalversion hat einen absoluten Wert verfehlt. Es tut uns leid!!

Hallo Ian. Ich werde kurz zwei Beispielungleichungen skizzieren, eine mit einer Lipschitz-Bindung, die andere mit einer Bindung an die zweite Ableitung, und dann einige Schwierigkeiten in diesem Problem diskutieren. Obwohl ich überflüssig bin, stellt sich heraus, dass die Version der zweiten Ableitung recht gut ist, da ein Ansatz mit einer Ableitung erklärt, was mit mehr Ableitungen (über Taylor) passiert.

Erstens mit einer Lipschitz-Bindung: Überarbeiten Sie einfach die standardmäßige Jensen-Ungleichung. Der gleiche Trick gilt: Berechnen Sie die Taylor-Erweiterung zum erwarteten Wert.

Insbesondere sei das entsprechende Maß und setze . Wenn die Lipschitz-Konstante , dann nach Taylors Theorem $X$ $\mu$ $m := \textrm E(x)$ $f$ $L$

f (x) = f (m) + f^{'} (z) (x - m) \leq f (m) + L | x - m |,

$f(x) = f(m) + f'(z)(x-m) \leq f(m) + L|x-m|,$

wobei (beachte , dass , und sind möglich). Verwenden Sie dies und überarbeiten Sie den Jensen-Beweis (ich bin paranoid und habe überprüft, dass der Standard tatsächlich auf Wikipedia ist). $z \in [m, x]$ $x\leq m$ $x> m$

\begin{aligned} E (f (X)) & = \int f (x) d μ (x) \leq f (m) \int d μ (x) + L \int | x - m | d μ (x) \\ = f (E (X)) + L E (| X - E (X) |) . \end{aligned}

$\begin{align} \operatorname{E}(f(X)) & = \int f(x) \, d\mu(x) \leq f(m) \int d\mu(x) + L\int |x-m| \, d\mu(x) \\[6pt] & = f(\operatorname{E}(X)) + L \operatorname{E} (|X-\operatorname{E}(X)|). \end{align}$

Nun nehmen wir . In diesem Fall, $|f''(x)| \leq \lambda$

\begin{aligned} f (x) & = f (m) + f^{'} (m) (x - m) + f^{″} (z) \frac{(x - m)^{2}}{2} \\ \leq f (m) + f^{'} (m) (x - m) + λ \frac{(x - m)^{2}}{2}, \end{aligned}

$\begin{align} f(x) & = f(m) + f'(m)(x-m) + f''(z) \frac{(x-m)^2} 2 \\[6pt] & \leq f(m) + f'(m)(x-m) + \lambda \frac{(x-m)^2} 2, \end{align}$

und so

\begin{aligned} E (f (X)) & \leq f (m) + f^{'} (m) (E (X) - m) + \frac{λ E ((X - m)^{2})}{2} \\ = f (E (X)) + \frac{λ Var (X)}{2} . \end{aligned}

$\begin{align} \operatorname{E}(f(X)) & \leq f(m) + f'(m)(\operatorname{E}(X) - m) + \frac {\lambda \operatorname{E}((X-m)^2)}{2} \\[6pt] & = f(\operatorname{E}(X)) + \frac {\lambda \operatorname{Var}(X)}2. \end{align}$

Ich möchte kurz ein paar Dinge erwähnen. Entschuldigung, wenn sie offensichtlich sind.

Zum einen kann man nicht einfach "wlog " sagen, indem man die Verteilung verschiebt, weil man die Beziehung zwischen und ändert . $\operatorname{E}(X) = 0$ $f$ $\mu$

Als nächstes muss die Grenze in irgendeiner Weise von der Verteilung abhängen. Um dies zu sehen, stellen Sie sich vor, dass und . Unabhängig vom Wert von Sie immer noch . Andererseits ist $X \sim \textrm{Gaussian}(0, \sigma^2)$ $f(x) = x^2$ $\sigma$ $f(\operatorname{E}(X)) = f(0) = 0$ . Durch Ändern von können Sie also die Lücke zwischen den beiden Größen beliebig machen! Intuitiv wird mehr Masse vom Mittelwert weggedrückt und somit für jede streng konvexe Funktion $\operatorname{E}(f(X)) = \operatorname{E}(X^2) = \sigma^2$ $\sigma$ $\operatorname{E} (f(X))$ zu.

Schließlich verstehe ich nicht, wie man eine Multiplikationsgrenze erhält, wie Sie vorschlagen. Alles, was ich in diesem Beitrag verwendet habe, ist Standard: Taylors Theorem und Derivatgrenzen sind in Statistikgrenzen Brot und Butter, und sie ergeben automatisch additive, nicht multiplikative Fehler.

Ich werde aber darüber nachdenken und etwas posten. Vage Intuition ist, dass es sehr anstrengende Bedingungen sowohl für die Funktion als auch für die Verteilung erfordert und dass der gebundene Zusatzstoff tatsächlich das Herzstück ist.

— matus
quelle

Jedes Mal, wenn ich bearbeite, wird die Antwort gestoßen. Also werde ich darauf hinweisen: Die zweite Ableitungsgrenze ist eng für das Beispiel, das ich gegeben habe.

— Matus

Ich denke, Sie haben Recht damit, dass additive Grenzen die bestmöglichen sind, ohne die Funktion wesentlich stärker zu beeinflussen.

— Ian

Lieber Ian, ich habe ein bisschen mehr über dieses Problem nachgedacht, aber die Hauptschwierigkeit in meinem Kopf wird durch das Beispiel angedeutet, das ich gegeben habe, wobei

, aber

. Sie können sowohl die Funktionsfamilie (beschränkt, begrenzte Ableitungen, integrierbar) als auch die Verteilung (glatte, begrenzte, begrenzte Momente) einschränken, und Sie haben immer noch diese Beispiele. Es reicht aus, eine symmetrische, nicht negative Funktion zu haben, die im Mittel der Verteilung gleich Null ist. Das heißt, alles hängt von den Einschränkungen in Ihrem genauen Problem ab. Im Allgemeinen halte ich die additive Natur für grundlegend.

f (E (X)) = 0

$f(\textrm E(X))= 0$

E (f (X)) > 0

$\textrm E (f(X)) > 0$

— Matus

@ Ian: Die Beweise der Ungleichungen von Chernoff und Azuma-Hoeffding verwenden Argumente, die an diese erinnern. Vielleicht möchten Sie diese zur Inspiration lesen. Siehe z. B. Mitzenmacher und Upfals Buch über Randomisierung in der Datenverarbeitung.

— Warren Schudy

Betrachten Sie eine Verteilung, die sich auf zwei Werte konzentriert. sagen wir mit gleichen Wahrscheinlichkeiten von 1/2, dass es gleich 1 oder 3 ist, woher . Nehmen und . Betrachten Sie Funktionen für die und . Indem $\textbf{E}[x] = 2$ $N >> 0$ $\epsilon > 0$ $f$ $f(1) = f(3)= N\epsilon$ $f(\textbf{E}[x]) = f(2) = \epsilon$ ausreichend klein und stetig zwischen diesen drei Punkten verbindend, können wir die Krümmung von so klein wie gewünscht machen. Dann $\epsilon$ $f$ $f$

, dennoch $\textbf{E}[f(x)] = N\epsilon$

. $N = N\epsilon / \epsilon = \textbf{E}[f(x)] / f(\textbf{E}[x]) \le \varphi(f)$

Dies zeigt, dass beliebig groß sein muss. $\varphi(f)$

— whuber
quelle