Hypothesentest und Gesamtvariationsabstand vs. Kullback-Leibler-Divergenz

Bei meiner Forschung bin ich auf das folgende allgemeine Problem gestoßen: Ich habe zwei Verteilungen und über dieselbe Domäne und eine große (aber endliche) Anzahl von Stichproben aus diesen Verteilungen. Die Proben sind unabhängig und identisch von einer dieser beiden Verteilungen verteilt (obwohl die Verteilungen verwandt sein können: Zum Beispiel kann eine Mischung aus und einer anderen Verteilung sein.) Die Nullhypothese lautet, dass die Proben von , die alternative Hypothese lautet: Proben stammen von . $P$ $Q$ $Q$ $P$ $P$ $Q$

Ich versuche, die Fehler vom Typ I und Typ II beim Testen der Probe zu charakterisieren, wobei ich die Verteilungen und . Insbesondere bin ich daran interessiert, neben der Kenntnis von und einen Fehler aufgrund des anderen zu begrenzen . $P$ $Q$ $P$ $Q$

Ich habe gefragt Frage auf math.SE in Bezug auf das Verhältnis von Gesamt Variation Abstand zwischen und zu Hypothesenprüfung und erhielt eine Antwort , dass ich akzeptiert. Diese Antwort ist sinnvoll, aber ich konnte mich immer noch nicht mit der tieferen Bedeutung der Beziehung zwischen Gesamtvariationsabstand und Hypothesentest in Bezug auf mein Problem befassen. Daher habe ich mich entschlossen, mich diesem Forum zuzuwenden. $P$ $Q$

Meine erste Frage lautet: Ist die Gesamtvariation an die Summe der Wahrscheinlichkeiten von Typ I- und Typ II-Fehlern gebunden , unabhängig von der verwendeten Hypothesentestmethode? Im Wesentlichen muss die Wahrscheinlichkeit, dass mindestens einer der Fehler ungleich Null ist, solange es eine Wahrscheinlichkeit ungleich Null gibt, dass die Stichprobe durch eine der Verteilungen erzeugt worden sein könnte. Grundsätzlich können Sie sich der Möglichkeit nicht entziehen, dass Ihr Hypothesentester einen Fehler macht, egal wie viel Signalverarbeitung Sie ausführen. Und Total Variation begrenzt genau diese Möglichkeit. Ist mein Verständnis richtig?

Es gibt auch eine andere Beziehung zwischen Fehlern vom Typ I und II und den zugrunde liegenden Wahrscheinlichkeitsverteilungen und : die KL-Divergenz . Meine zweite Frage lautet daher: Ist die KL-Divergenz nur für eine bestimmte Hypothesentestmethode anwendbar (sie scheint häufig mit der Log-Likelihood-Ratio-Methode zu tun zu haben), oder kann man sie allgemein auf alle Hypothesentestmethoden anwenden? Wenn es für alle Hypothesentestmethoden anwendbar ist, warum scheint es sich dann so stark von der gebundenen Gesamtvariation zu unterscheiden? Benimmt es sich anders? $P$ $Q$

Und meine zugrunde liegende Frage lautet: Gibt es eine Reihe vorgeschriebener Umstände, unter denen ich entweder gebunden verwenden sollte, oder ist es nur eine Frage der Bequemlichkeit? Wann sollte das mit einer Grenze abgeleitete Ergebnis unter Verwendung der anderen gebunden sein?

Ich entschuldige mich, wenn diese Fragen trivial sind. Ich bin Informatiker (das scheint mir also ein ausgefallenes Mustervergleichsproblem zu sein :).) Ich kenne die Informationstheorie ziemlich gut und habe auch einen Abschluss in Wahrscheinlichkeitstheorie. Ich fange jedoch gerade erst an, all diese Hypothesentests zu lernen. Bei Bedarf werde ich mein Bestes tun, um meine Fragen zu klären.

— MBM
quelle

Antworten:

Literatur: Die meisten Antworten finden Sie sicherlich in dem Buch von Lehman und Romano . Das Buch von Ingster und Suslina behandelt fortgeschrittenere Themen und gibt Ihnen möglicherweise zusätzliche Antworten.

Antwort: Die Dinge sind jedoch sehr einfach: (oder ) ist die "wahre" Entfernung, die verwendet werden soll. Es ist nicht praktisch für die formale Berechnung (insbesondere bei Produktmaßen, dh wenn Sie eine Stichprobe der Größe ) und andere Abstände (die Obergrenzen von ) können verwendet werden. Lassen Sie mich Ihnen die Details geben. $L_1$ $TV$ $n$ $L_1$

Entwicklung: Bezeichnen wir mit

$g_1(\alpha_0,P_1,P_0)$ der minimale Fehler vom Typ II mit dem Fehler vom Typ I für und die Null und die Alternative. $\leq\alpha_0$ $P_0$ $P_1$
$g_2(t,P_1,P_0)$ die Summe der minimal möglichen Fehler vom Typ I + Typ II, wobei und die Null und die Alternative sind. $t$ $(1-t)$ $P_0$ $P_1$

Dies sind die minimalen Fehler, die Sie analysieren müssen. Gleichheiten (nicht Untergrenzen) werden durch Satz 1 unten angegeben (in Bezug auf die Entfernung (oder die TV-Entfernung, wenn Sie welche haben)). Ungleichungen zwischen Abstand und anderen Abständen sind in Satz 2 angegeben (beachten Sie, dass Sie zur Untergrenze der Fehler Obergrenzen von oder benötigen ). $L_1$ $L_1$ $L_1$ $TV$

Welche Verwendung dann ist, ist eine Frage der Bequemlichkeit, da oft schwieriger zu berechnen ist als Hellinger oder Kullback oder . Das Hauptbeispiel für einen solchen Unterschied erscheint, wenn und Produktmaße die auftreten, wenn Sie gegen mit einer Stichprobe der Größe iid testen möchten. In diesem Fall werden und die anderen leicht aus (dasselbe gilt für und ), aber das können Sie mit nicht tun ... $L_1$ $\chi^2$ $P_1$ $P_0$ $P_i=p_i^{\otimes n}$ $i=0,1$ $p_1$ $p_0$ $n$ $h(P_1,P_0)$ $h(p_1,p_0)$ $KL$ $\chi^2$ $L_1$

Definition: Die Affinität zwischen zwei Takten und ist definiert als . $A_1(\nu_1,\nu_0)$ $\nu_1$ $\nu_2$

A_{1} (ν_{1}, ν_{0}) = \int min (d ν_{1}, d ν_{0})

$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0)$

Satz 1 Wenn(die Hälfte des Fernsehers) $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$

$2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$ .
$g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
$g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

Ich habe den Beweis hier geschrieben .

Satz 2 Für und Wahrscheinlichkeitsverteilungen: $P_1$ $P_0$

\frac{1}{2} | P_{1} - P_{0} |_{1} \leq h (P_{1}, P_{0}) \leq \sqrt{K (P_{1}, P_{0})} \leq \sqrt{χ^{2} (P_{1}, P_{0})}

$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$

Diese Grenzen sind auf mehrere bekannte Statistiker zurückzuführen (LeCam, Pinsker, ...). ist der Hellinger-Abstand, die KL-Divergenz und die Chi-Quadrat-Divergenz. Sie sind alle hier definiert . und die Beweise für diese Grenzen werden gegeben (weitere Dinge finden sich im Buch Tsybacov ). Es gibt auch etwas, das fast eine Untergrenze von von Hellinger ist ... $h$ $K$ $\chi^2$ $L_1$

— Robin Girard
quelle

Vielen Dank für die Antwort, ich versuche jetzt, es zu verdauen. In meinem Problem habe ich Fehler vom Typ I zugelassen. Ich habe auch die beiden Verteilungen und . Ich kenne das Fernsehen zwischen ihnen (sowie KL). Sie sagen also, dass TV eine engere Untergrenze für Typ-II-Fehler aufweist als KL, was bedeutet, dass ich TV für meine Analyse verwenden sollte, wenn ich eine möglichst enge Untergrenze wünschen?

P_{0}

$P_0$

P_{1}

$P_1$

— MBM

Und danke für den Buchvorschlag von Lehmann und Romano, er sieht sehr hilfreich aus und geht mir nicht zu sehr über den Kopf. Außerdem besitzt meine Bibliothek eine Kopie! :)

— MBM

@Bullmoose, was Satz 1 hier sagt, ist, dass TV (oder L1) mit der Gleichheit zu was mit der Gleichheit zu g_2 oder g_1 zusammenhängt (die minimale Summe von Fehlern oder Typ II-Fehlern mit gesteuertem Typ I). Hier gibt es keine Ungleichheiten. Ungleichungen treten auf, wenn Sie von L1 nach Kullback müssen.

A_{1}

$A_1$

— Robin Girard

Leider habe ich nur minimalen Hintergrund in der Maßtheorie. Ich glaube, ich verstehe irgendwie, was und sind, aber bei mir nicht klar . Angenommen, ich habe zwei Gaußsche Verteilungen. Das Fernsehgerät (oder L1) zwischen ihnen ist Aber was wäre ? Aus der Definition geht hervor, dass ...

g_{1}

$g_1$

g_{2}

$g_2$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} | \frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}} - \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}} | d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\left|\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1}-\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right|dx$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} min (\frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}}, \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}}) d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\min\left(\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1},\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right)dx$

— MBM

... aber wie sich ab dem ersten Aufzählungszeichen im Satz darauf zu?

\int (ν_{1} + ν_{2})

$\int (\nu_1+\nu_2)$

— MBM

Antwort auf Ihre erste Frage: Ja, eins minus der gesamten Variationsentfernung ist eine Untergrenze für die Summe der Fehlerraten vom Typ I + Typ II. Diese Untergrenze gilt unabhängig davon, welchen Hypothesentestalgorithmus Sie wählen.

Begründung: Die Antwort, die Sie auf Math.SE erhalten haben, liefert den Standardbeweis für diese Tatsache. Korrigieren Sie einen Hypothesentest. Let bezeichnen die Menge der Ergebnisse , auf denen dieser Test die Nullhypothese ablehnen wird ( ein solcher Satz muss existieren immer). Dann beweist die Berechnung in der Math.SE-Antwort die Untergrenze. $A$

(Genau genommen geht diese Argumentation davon aus, dass Ihr Hypothesentest ein deterministisches Verfahren ist. Aber selbst wenn Sie randomisierte Verfahren berücksichtigen, kann gezeigt werden, dass dieselbe Grenze immer noch gilt.)

— DW
quelle