Gibt es einen unvoreingenommenen Schätzer für den Hellinger-Abstand zwischen zwei Verteilungen?

In einer Situation, in der man aus einer Verteilung mit der Dichte , frage ich mich, ob es einen unverzerrten Schätzer (basierend auf den ) für die Hellinger-Distanz zu einer anderen Verteilung mit der Dichte , nämlich $X_1,\ldots,X_n$ $f$ $X_i$ $f_0$

H (f, f_{0}) = {1 - \int_{X} \sqrt{f (x) f_{0} (x)} d x}^{1 / 2} .

$\mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.$

— Xi'an
quelle

Also ist f0 bekannt und festgelegt. Aber ist f bekannt oder stammt es aus einer parametrischen Familie oder geschieht dies in einem nichtparametrischen Rahmen mit allem, was Sie über f aus Ihrer Stichprobe wissen? Ich denke, es macht einen Unterschied, wenn ich eine Antwort versuche.

— Michael R. Chernick

@MichaelChernick: Alles, was Sie über wissen, ist das Beispiel .

f

$f$

X_{1}, \dots, X_{n}

$X_1,\ldots,X_n$

— Xi'an

Ich glaube nicht, dass es berechnet wurde (falls vorhanden). Wenn es existiert, hat AIC einen verlorenen Bruder.

Ein Angriff auf dieses Problem ist möglich, wenn Sie annehmen, dass und diskret sind. Dies führt zu einem offensichtlichen Schätzer (berechnen Sie den Hellinger-Abstand zwischen der EDF und ). Durch Bootstrapping (theoretisch nicht durch Simulation!) Erhalten wir einen Überblick über die mögliche Verzerrung sowie eine Möglichkeit, die Verzerrung zu verringern (oder sogar zu beseitigen). Ich hoffe, dass es mir gelingt, die quadratische Distanz und nicht die Distanz selbst zu erreichen, da sie mathematisch besser zu handhaben ist. Die Annahme eines diskreten ist in Anwendungen kein Problem; der Raum von diskretem ist ohnehin eine dichte Teilmenge.

f

$f$

f_{0}

$f_0$

f_{0}

$f_0$

f

$f$

f

$f$

— whuber

Es fällt Rosenblatts Beweis ein, dass es keinen "gutgläubigen" unverzerrten Schätzer für . Können wir das überwinden und einen uneingeschränkten Schätzer für ? Ich weiß es nicht.

f

$f$

H (f, f_{0})

$H(f,f_0)$

— Zen

Antworten:

Weder für noch für existiert ein unvoreingenommener Schätzer für aus einer einigermaßen breiten nichtparametrischen Klasse von Verteilungen. $\mathfrak{H}$ $\mathfrak{H}^2$ $f$

Wir können dies mit dem wunderbar einfachen Argument von zeigen

Bickel und Lehmann (1969). Unvoreingenommene Schätzung in konvexen Familien . Die Annalen der mathematischen Statistik, 40 (5) 1523-1535. ( Projekt Euklid )

Fixiere einige Verteilungen , und mit den entsprechenden Dichten , und . Lassen bezeichnen , und lassen sein , einige Schätzer von auf Basis von IId Proben . $F_0$ $F$ $G$ $f_0$ $f$ $g$ $H(F)$ $\mathfrak{H}(f, f_0)$ $\hat H(\mathbf X)$ $H(F)$ $n$ $X_i \sim F$

Nehmen wir an, dass für Stichproben aus einer beliebigen Verteilung der Form Aber dann damit muss ein Polynom in $\hat H$

M_{α} := α F + (1 - α) G .

$M_\alpha := \alpha F + (1 - \alpha) G .$

\begin{aligned} Q (α) & = H (M_{α}) \\ = \int_{x_{1}} \dots \int_{x_{n}} \hat{H} (X) d M_{α} (x_{1}) \dots d M_{α} (x_{n}) \\ = \int_{x_{1}} \dots \int_{x_{n}} \hat{H} (X) [α d F (x_{1}) + (1 - α) d G (x_{1})] \dots [α d F (x_{n}) + (1 - α) d G (x_{n})] \\ = α^{n} E_{X \sim F^{n}} [\hat{H} (X)] + \dots + (1 - α)^{n} E_{X \sim G^{n}} [\hat{H} (X)], \end{aligned}

$\begin{align} Q(\alpha) &= H(M_\alpha) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \,\mathrm{d}M_\alpha(x_1) \cdots\mathrm{d}M_\alpha(x_n) \\&= \int_{x_1} \cdots \int_{x_n} \hat H(\mathbf X) \left[ \alpha \mathrm{d}F(x_1) + (1-\alpha) \mathrm{d}G(x_1) \right] \cdots \left[ \alpha \mathrm{d}F(x_n) + (1-\alpha) \mathrm{d}G(x_n) \right] \\&= \alpha^n \operatorname{\mathbb{E}}_{\mathbf X \sim F^n}[ \hat H(\mathbf X)] + \dots + (1 - \alpha)^n \operatorname{\mathbb{E}}_{\mathbf X \sim G^n}[ \hat H(\mathbf X)] ,\end{align}$

Q (α)

$Q(\alpha)$

α

$\alpha$ höchstens .

n

$n$

Nun wollen wir uns auf einen vernünftigen Fall spezialisieren und zeigen, dass das entsprechende kein Polynom ist. $Q$

Sei eine Verteilung mit konstanter Dichte auf : für alle . (Das Verhalten außerhalb dieses Bereichs spielt keine Rolle.) Sei eine Verteilung, die nur von , und eine Verteilung, die nur von . $F_0$ $[-1, 1]$ $f_0(x) = c$ $\lvert x \rvert \le 1$ $F$ $[-1, 0]$ $G$ $[0, 1]$

Jetzt wobei und ebenfalls für . Beachten Sie, dass , für alle Verteilungen , , die eine Dichte haben.

\begin{aligned} Q (α) & = H (m_{α}, f_{0}) \\ = \sqrt{1 - \int_{R} \sqrt{m_{α} (x) f_{0} (x)} d x} \\ = \sqrt{1 - \int_{- 1}^{0} \sqrt{c α f (x)} d x - \int_{0}^{1} \sqrt{c (1 - α) g (x)} d x} \\ = \sqrt{1 - \sqrt{α} B_{F} - \sqrt{1 - α} B_{G}}, \end{aligned}

$\begin{align} Q(\alpha) &= \mathfrak{H}(m_\alpha, f_0) \\&= \sqrt{1 - \int_{\mathbb R} \sqrt{m_\alpha(x) f_0(x)} \mathrm{d}x} \\&= \sqrt{1 - \int_{-1}^0 \sqrt{c \, \alpha f(x)} \mathrm{d}x - \int_{0}^1 \sqrt{c \, (1 - \alpha) g(x)} \mathrm{d}x} \\&= \sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G} ,\end{align}$

B_{F} := \int_{R} \sqrt{f (x) f_{0} (x)} d x

$B_F := \int_{\mathbb R} \sqrt{f(x) f_0(x)} \mathrm{d}x$

B_{G}

$B_G$

B_{F} > 0

$B_F > 0$

B_{G} > 0

$B_G > 0$

F

$F$

G

$G$

$\sqrt{1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G}$ ist kein Polynom endlichen Grades. Somit kann kein Schätzer für für alle Verteilungen mit endlich vielen Abtastwerten unverzerrt sein. $\hat H$ $\mathfrak{H}$ $M_\alpha$

Da auch kein Polynom ist, gibt es auch keinen Schätzer für der für alle Verteilungen mit endlich vielen Samples. $1 - \sqrt{\alpha} B_F - \sqrt{1 - \alpha} B_G$ $\mathfrak{H}^2$ $M_\alpha$

Dies schließt so gut wie alle vernünftigen nichtparametrischen Verteilungsklassen aus, mit Ausnahme derjenigen mit Dichten, die unterhalb der Grenze liegen (eine Annahme, die nichtparametrische Analysen manchmal machen). Sie könnten diese Klassen wahrscheinlich auch mit einem ähnlichen Argument beenden, indem Sie einfach die Dichte konstant halten oder so.

— Dougal
quelle

Ich weiß nicht, wie ich einen unvoreingenommenen Schätzer der Hellinger-Distanz konstruieren soll (falls vorhanden). Es scheint möglich, einen konsistenten Schätzer zu konstruieren. Wir haben eine feste bekannte Dichte und eine Zufallsstichprobe aus einer Dichte . Wir wollen wobei . Durch die SLLN wissen wir, dass ziemlicher Sicherheit als $f_0$ $X_1,\dots,X_n$ $f>0$

H (f, f_{0}) = \sqrt{1 - \int_{X} \sqrt{f (x) f_{0} (x)} d x} = \sqrt{1 - \int_{X} \sqrt{\frac{f_{0} (x)}{f (x)}} f (x) d x}

$H(f,f_0) = \sqrt{1 - \int_\mathscr{X} \sqrt{f(x)f_0(x)}\,dx} = \sqrt{1 - \int_\mathscr{X} \sqrt{\frac{f_0(x)}{f(x)}}\;\;f(x)\,dx}$

= \sqrt{1 - E [\sqrt{\frac{f_{0} (X)}{f (X)}}]},

$= \sqrt{1 - \mathbb{E}\left[\sqrt{\frac{f_0(X)}{f(X)}}\;\;\right] }\, ,$

X \sim f

$X\sim f$

\sqrt{1 - \frac{1}{n} \sum_{i = 1}^{n} \sqrt{\frac{f_{0} (X_{i})}{f (X_{i})}}} \to H (f, f_{0}),

$\sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{f(X_i)}}} \quad \rightarrow H(f,f_0) \, ,$

n \to \infty

$n\to\infty$ . Daher wird eine resonable Weise abzuschätzen eine Dichte - Schätzer zu nehmen wäre (wie ein traditionelles Kerndichteschätzer) von und compute

H (f, f_{0})

$H(f,f_0)$

\hat{f_{n}}

$\hat{f_n}$

f

$f$

\hat{H} = \sqrt{1 - \frac{1}{n} \sum_{i = 1}^{n} \sqrt{\frac{f_{0} (X_{i})}{\hat{f_{n}} (X_{i})}}} .

$\hat{H}=\sqrt{1 - \frac{1}{n} \sum_{i=1}^n \sqrt{\frac{f_0(X_i)}{\hat{f_n}(X_i)}}} \, .$

— Zen
quelle

@ Zen: Guter Punkt! Ich betrachte diese Antwort als die Antwort, weil mir klar wurde, dass sehr nach einer Standardabweichung klingt, für die es keinen unvoreingenommenen Schätzer gibt. Was die Varianz von , gibt es keine Sorgen: impliziert, dass dieser Schätzer eine endliche Varianz hat.

H

$H$

{\hat{H}}_{n}^{2}

$\hat H^2_n$

E [(\sqrt{f_{0} (X) / f (X)})^{2}] = 1

$\mathbb{E}[(\sqrt{f_0(X)/f(X)})^2]=1$

— Xi'an

Vielen Dank für die Klarstellung der Varianz des Schätzers Xi'an!

— Zen

Einige arbeiten an anderen konsistenten Schätzern: (a) arxiv.org/abs/1707.03083 und verwandte Arbeiten basierend auf NN-Dichteschätzern; (b) arxiv.org/abs/1402.2966 basierend auf der Korrektur von Kerneldichteschätzungen; (c) ieeexplore.ieee.org/document/5605355 basierend auf einer Verbindung zur Klassifizierung. (Viele davon basieren auf Samples von und , da dies die Arbeit ist, die ich aus erster Hand kannte, aber ich denke, es gibt Varianten für .)

k

$k$

f

$f$

f_{0}

$f_0$

f_{0}

$f_0$

— Dougal