Messung der "Distanz" zwischen zwei multivariaten Verteilungen


28

Ich suche nach einer guten Terminologie, um zu beschreiben, was ich versuche, um die Suche nach Ressourcen zu vereinfachen.

Angenommen, ich habe zwei Cluster von Punkten A und B, die jeweils zwei Werten X und Y zugeordnet sind, und ich möchte den "Abstand" zwischen A und B messen, dh wie wahrscheinlich ist es, dass sie aus derselben Verteilung abgetastet wurden (Ich kann davon ausgehen, dass die Verteilungen normal sind). Wenn zum Beispiel X und Y in A, aber nicht in B korreliert sind, sind die Verteilungen unterschiedlich.

Intuitiv würde ich die Kovarianzmatrix von A erhalten und dann untersuchen, wie wahrscheinlich es ist, dass jeder Punkt in B hineinpasst, und umgekehrt (wahrscheinlich mit etwas wie Mahalanobis-Abstand).

Aber das ist ein bisschen "ad-hoc", und es gibt wahrscheinlich eine rigorosere Art, dies zu beschreiben (in der Praxis habe ich natürlich mehr als zwei Datensätze mit mehr als zwei Variablen - ich versuche zu identifizieren, welcher meiner Datensätze sind Ausreißer).

Vielen Dank!


Keine Ahnung warum, aber ein Mantel-Test blitzte vor meinen Augen auf, als ich Ihren Beitrag las.
Roman Luštrik

Antworten:



16

Hmm, die Bhattacharyya-Distanz scheint das zu sein, wonach ich suche, obwohl die Hellinger-Distanz auch funktioniert.


Sie erwähnen Bhattacharyya und Helling und akzeptieren dann eine Antwort über KL ... Am Ende, was war Ihre Wahl und warum?
Simon C.

1
Ich glaube, es war KL Divergenz, aber ... das war im Jahr 2010 und mein Gedächtnis ist alles andere als perfekt.
Emile

ahah ja das hab ich geahnt, aber trotzdem danke!
Simon C.

9

Heuristik

  • Minkowski-Form
  • Gewichtete mittlere Varianz (WMV)

Nichtparametrische Teststatistik

  • 2 (Chi Square)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Informationstheoretische Divergenzen

  • Kullback-Liebler (KL)
  • Jensen-Shannon-Divergenz (metrisch)
  • Jeffrey-Divergenz (numerisch stabil und symmetrisch)

Bodenabstandsmaße

  • Schnittpunkt des Histogramms
  • Quadratische Form (QF)
  • Erdbewegungsentfernung (EMD)


0

Nur noch wenige Maße für "Statistical Difference"

  • Permutationstest (von Fisher)
  • Zentraler Grenzwertsatz & Slutskys Satz
  • Mann-Whitney-Wilcoxin-Test
  • Anderson-Darling-Test
  • Shapiro-Wilk-Test
  • Hosmer-Lemeshow-Test
  • Kuipers Test
  • Kernelized Stein Diskrepanz
  • Jaccard Ähnlichkeit
  • Das hierarchische Clustering befasst sich auch mit Ähnlichkeitsmaßen zwischen Gruppen. Die beliebtesten Maße für Gruppenähnlichkeit sind möglicherweise die Einzelbindung, die vollständige Bindung und die durchschnittliche Bindung.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.