Es gibt viele Möglichkeiten zu messen, wie ähnlich zwei Wahrscheinlichkeitsverteilungen sind. Zu den (in verschiedenen Kreisen) populären Methoden gehören:
der Kolmogorov-Abstand: der Überabstand zwischen den Verteilungsfunktionen;
die Kantorovich-Rubinstein-Distanz: die maximale Differenz zwischen den Erwartungen bezüglich der beiden Funktionsverteilungen mit der Lipschitz-Konstante , die sich auch als die Distanz zwischen den Verteilungsfunktionen herausstellt ;L 1
die beschränkte Lipschitz-Distanz: Wie die KR-Distanz, aber die Funktionen müssen auch einen absoluten Wert von höchstens .
Diese haben unterschiedliche Vor- und Nachteile. Nur Konvergenz im Sinne von 3. entspricht tatsächlich genau der Konvergenz in der Verteilung; Konvergenz im Sinne von 1. oder 2. ist im Allgemeinen etwas stärker. (Insbesondere wenn mit der Wahrscheinlichkeit , konvergiert in der Verteilung gegen , jedoch nicht in der Kolmogorov-Distanz. Wenn die Grenzverteilung jedoch stetig ist, tritt diese Pathologie nicht auf. ) 1xn0
Aus der Perspektive der Elementarwahrscheinlichkeits- oder Maßtheorie ist 1. sehr natürlich, weil es die Wahrscheinlichkeiten vergleicht, in einer Menge zu sein. Eine differenziertere Wahrscheinlichkeitsperspektive konzentriert sich eher auf Erwartungen als auf Wahrscheinlichkeiten. Aus der Sicht der Funktionsanalyse sind Entfernungen wie 2. oder 3., die auf Dualität mit einem gewissen Funktionsraum basieren, sehr ansprechend, da es eine große Anzahl mathematischer Werkzeuge gibt, um mit solchen Dingen zu arbeiten.
Mein Eindruck (korrigiere mich, wenn ich mich irre!) Ist jedoch, dass in der Statistik die Kolmogorov-Distanz die normalerweise bevorzugte Methode zur Messung der Ähnlichkeit von Verteilungen ist. Ich kann einen Grund erraten: Wenn eine der Verteilungen mit endlicher Unterstützung diskret ist - insbesondere wenn es sich um die Verteilung einiger realer Daten handelt -, ist die Kolmogorov-Entfernung zu einer Modellverteilung einfach zu berechnen. (Die KR-Distanz wäre etwas schwieriger zu berechnen, und die BL-Distanz wäre praktisch wahrscheinlich unmöglich.)
Meine Frage ist also (endlich), ob es andere praktische oder theoretische Gründe gibt, die Kolmogorov-Distanz (oder eine andere Distanz) für statistische Zwecke zu bevorzugen.