Entspricht der Mittelwert einer univariaten Zufallsvariablen immer dem Integral ihrer Quantilfunktion?

17

Ich habe gerade bemerkt, dass die Integration der Quantilfunktion einer univariaten Zufallsvariablen (inverse cdf) von p = 0 nach p = 1 den Mittelwert der Variablen ergibt. Ich habe noch nie von dieser Beziehung gehört und frage mich: Ist das immer so? Wenn ja, ist diese Beziehung allgemein bekannt?

Hier ist ein Beispiel in Python:

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.

mean pdf quantile-function

— Tyler Streeter
quelle

26

Sei die CDF der Zufallsvariablen , so kann die inverse CDF . In Ihrem Integral macht die Substitution , zu erhalten $F$ $X$ $F^{-1}$ $p = F(x)$ $dp = F'(x)dx = f(x)dx$

\int_{0}^{1} F^{- 1} (p) d p = \int_{- \infty}^{\infty} x f (x) d x = E_{F} [X] .

$\int_0^1F^{-1}(p)dp = \int_{-\infty}^{\infty}x f(x) dx = \mathbb{E}_F[X].$

Dies gilt für kontinuierliche Verteilungen. Bei anderen Distributionen ist Vorsicht geboten, da eine inverse CDF keine eindeutige Definition hat.

Bearbeiten

Wenn die Variable nicht stetig ist, hat sie keine in Bezug auf das Lebesgue-Maß absolut stetige Verteilung, was Sorgfalt bei der Definition der inversen CDF und Sorgfalt bei der Berechnung von Integralen erfordert. Betrachten Sie zum Beispiel den Fall einer diskreten Verteilung. Per Definition ist dies eine, deren CDF eine Schrittfunktion mit Schritten der Größe bei jedem möglichen Wert . $F$ $\Pr_F(x)$ $x$

Abbildung 1

Diese Figur zeigt die CDF eines Bernoulli Verteilung skaliert durch . Das heißt, der Zufallsvariable mit einer Wahrscheinlichkeit von gleich , und eine Wahrscheinlichkeit von von gleich . Die Höhen der Sprünge bei und geben ihre Wahrscheinlichkeiten an. Die Erwartung dieser Variablen entspricht offenbar $(2/3)$ $2$ $1/3$ $0$ $2/3$ $2$ $0$ $2$ . $0\times(1/3)+2\times(2/3)=4/3$

Wir könnten eine "inverse CDF" indem wir benötigen $F^{-1}$

F^{- 1} (p) = x if F (x) \geq p and F (x^{-}) < p .

$F^{-1}(p) = x \text{ if } F(x) \ge p \text{ and } F(x^{-}) \lt p.$

Dies bedeutet, dass auch eine Sprungfunktion ist. Für jeden möglichen Wert der Zufallsvariablen erreicht den Wert über ein Intervall der Länge . Daher wird sein Integral erhalten, indem die Werte summiert werden , was nur die Erwartung ist. $F^{-1}$ $x$ $F^{-1}$ $x$ $\Pr_F(x)$ $x\Pr_F(x)$

Figur 2

Dies ist der Graph der inversen CDF des vorhergehenden Beispiels. Die Sprünge von und in der CDF werden horizontale Linien dieser Längen in der Höhe der gleich und , um die Werte , die Wahrscheinlichkeiten sie entsprechen. (Die inverse CDF nicht außerhalb des Intervalls definiert .) Sein Integral die Summe von zwei Rechtecken ist, eine der Höhe und Base , die andere der Höhe und Base , insgesamt $1/3$ $2/3$ $0$ $2$ $[0,1]$ $0$ $1/3$ $2$ $2/3$ $4/3$ , wie vorher.

Im Allgemeinen müssen wir für eine Mischung aus einer kontinuierlichen und einer diskreten Verteilung die inverse CDF definieren, um diese Konstruktion zu parallelisieren: Bei jedem diskreten Sprung der Höhe müssen wir eine horizontale Linie der Länge wie in der vorstehenden Formel angegeben. $p$ $p$

— whuber
quelle

Sie haben einen Fehler bei der Änderung der Variablen gemacht. woher kommt das x

— Mascarpone

3

@ Mascarpone Bitte lesen Sie den Text vor der Gleichung. Ich glaube nicht, dass es einen Fehler bei der Änderung der Variablen gibt :-), aber wenn Sie glauben, dass dies die Darstellung verdeutlichen würde, würde ich gerne darauf hinweisen, dass wenn

, dann

. Ich habe einfach nicht gedacht, dass das notwendig ist.

p = F (x)

$p=F(x)$

x = F^{- 1} (p)

$x=F^{-1}(p)$

— whuber

jetzt habe ich es bekommen;),

— Mascarpone

+1 Whuber: Danke! Könnten Sie etwas genauer erläutern, um die von Ihnen angegebene Formel zu verwenden, wie Sie sich um andere Distributionen kümmern können, deren inverse CDF keine eindeutige Definition hat?

— Tim

1

Um solche unangenehmen Überlegungen zu Inversen, Pseudoinversen und dergleichen zu umgehen und gleichzeitig eine Verallgemeinerung für jeden Moment zu finden, siehe hier .

— Hat

9

Ein äquivalentes Ergebnis ist in bekannter Überlebensanalyse : die erwartete Lebensdauer ist wobei die Überlebensfunktion gemessen von Geburt an bei . (Es kann leicht erweitert werden, um negative Werte von abzudecken.)

\int_{t = 0}^{\infty} S (t) d t

$\int_{t=0}^\infty S(t) \; dt$

S (t) = Pr (T > t)

$S(t) = \Pr(T \gt t)$

t = 0

$t=0$

t

$t$

Bildbeschreibung hier eingeben

So können wir dies umschreiben als aber das ist

\int_{t = 0}^{\infty} (1 - F (t)) d t

$\int_{t=0}^\infty (1-F(t)) \; dt$

wie in verschiedenen Überlegungen des betreffenden Gebiets gezeigt

\int_{q = 0}^{1} F^{- 1} (q) d q

$\int_{q=0}^1 F^{-1}(q) \; dq$

Bildbeschreibung hier eingeben

— Henry
quelle

1

Ich mag Bilder und fühle instinktiv, dass hier eine großartige Idee lauert - ich liebe die Idee -, aber ich verstehe diese besonderen nicht. Erklärungen wären hilfreich. Eine Sache, die mich aufhält, ist der Gedanke, das Integral von

auf

: es muss divergieren.

(1 - F (t)) d t

$(1-F(t))dt$

- \infty

$-\infty$

— Whuber

@whuber: Wenn Sie möchten , negativ verlängern

erhalten Sie

t

$t$

. Es ist zu beachten, dass, wenn dies für eine um

symmetrische Verteilung konvergiert, dh

es leicht zu erkennen ist, dass die Erwartung Null ist. Einen Summe eher als eine Differenz

\int_{t = 0}^{\infty} (1 - F (t)) d t - \int_{t = - \infty}^{0} F (t) d t

$\int_{t=0}^\infty (1-F(t)) \; dt - \int_{t=-\infty}^0 F(t) \; dt$

0

$0$

F (t) = 1 - F (- t)

$F(t)=1-F(-t)$

gibt die durchschnittliche absolute Abweichung um

.

\int_{t = 0}^{\infty} (1 - F (t)) d t + \int_{t = - \infty}^{0} F (t) d t

$\int_{t=0}^\infty (1-F(t)) \; dt + \int_{t=-\infty}^0 F(t) \; dt$

0

$0$

— Henry

Wenn Sie Diagramme mögen, könnte Sie diese Arbeit von Lee aus dem Jahr 1988 interessieren: Die Mathematik der Überdeckung von Verlusten und das retrospektive Rating - ein grafischer Ansatz .

— Avraham

4

Wir evaluieren:

Bildbeschreibung hier eingeben

Versuchen wir es mit einer einfachen Änderung der Variablen:

Bildbeschreibung hier eingeben

Und wir stellen fest, dass per Definition von PDF und CDF:

Bildbeschreibung hier eingeben

fast überall. Somit haben wir per Definition des erwarteten Wertes:

Bildbeschreibung hier eingeben

— Mascarpone
quelle

In der letzten Zeile erkläre ich die Definition des erwarteten Wertes deutlicher. Das fast überall bezieht sich auf die Gleichung über der letzten. en.wikipedia.org/wiki/Almost_everywhere

— Mascarpone

1

bearbeitet, Danke :)

— Mascarpone

3

$X$ $F$ $F^{-1}(U)$ $X$ $U$ $(0,1)$ $X$ $F^{-1}(U)$

E (X) = E (F^{- 1} (U)) = \int_{0}^{1} F^{- 1} (u) d u .

$E(X)=E(F^{-1}(U))=\int_0^1 F^{-1}(u)\mathrm{d}u.$

X \sim F^{- 1} (U)

$X \sim F^{-1}(U)$

F

$F$

F^{- 1}

$F^{-1}$

F

$F$

F

$F$

— Stéphane Laurent
quelle

1

$F(x)$ $P(X\le x)$ $F^{-1}$

F^{- 1} (p) = Mindest (x | F (x) \geq p) .

$\begin{equation} F^{-1}(p)=\min(x|F(x)\ge p). \end{equation}$ Das

min

$\min$ macht Sinn wegen der richtigen Kontinuität. Lassen

U

$U$ eine gleichmäßige Verteilung auf

[0, 1]

$[0, 1]$ . Das können Sie leicht überprüfen

F^{- 1} (U)

$F^{-1}(U)$ hat die gleiche CDF wie

X

$X$ , welches ist

F

$F$ . Dies ist nicht erforderlich

X

$X$ Fortsetzung folgt. Daher,

E (X) = E (F^{- 1} (U)) = \int_{0}^{1} F^{- 1} (p) d p

$E(X)=E(F^{-1}(U))=\int_0^1F^{-1}(p)\mathop{dp}$ . Das Integral ist das Riemann-Stieltjes-Integral . Die einzige Annahme, die wir brauchen, ist der Mittelwert von

X

$X$ existiert (

E | X | < \infty

$E|X|<\infty$ ).

— WWang
quelle

That's the same answer as mine.

— Stéphane Laurent