Es gibt viele Distanzfunktionen für Verteilungen, aber es fällt mir schwer, sie alle zu durchsuchen, um eine zu finden, die
- ist "verteilungsfrei" oder "nichtparametrisch", womit ich nur meine, dass es nur wenige / schwache Annahmen über die zugrunde liegenden Verteilungen macht (insbesondere keine Normalität annimmt);
- ist robust gegenüber Ausreißern.
(Von diesen beiden gewünschten Eigenschaften ist (1) wesentlich wichtiger als (2).)
Mir ist klar, dass die oben genannten Merkmale wahrscheinlich die Unterscheidungskraft einer Maßnahme verringern würden, aber sie spiegeln die Realität der Daten wider, mit denen ich arbeite 1 .
Wenn es hilft, das Problem zu klären, könnte ich eine kleine Teilstichprobe der Daten veröffentlichen, deren Funktionen angemessen getarnt sind (dies sind unveröffentlichte Daten, die meinen Mitarbeitern gehören). Die einzige Sorge, die ich habe, ist, dass jede Teilstichprobe, die klein genug ist, um als Teil eines CrossValidated-Posts "postbar" zu sein, zu klein ist, um den gesamten Datensatz angemessen darzustellen. Ich würde mich über eine Anleitung in dieser Angelegenheit freuen.
Hintergrund (aka tl; dr)
Ich wollte ursprünglich den Bhattacharyya-Abstand , um Abstände zwischen den Stichprobenverteilungen verschiedener Paare von Teilstichproben in meinem zu messen Datensatz, aber ich stieß schnell auf das Problem, dass die Matrix , deren Inverse erforderlich ist, um 2 ist für viele dieser Paare schlecht konditioniert .
Dies führte mich dazu, mehr über die Theorie hinter zu lesen , aus der ich zusammenfasste, dass die Formel, die ich zur Berechnung verwendet hatte, davon ausgeht, dass die zugrunde liegenden Verteilungen alle normal sind. Ich nahm an, dass zwischen den numerischen Problemen, auf die ich gestoßen bin, und der Tatsache, dass die Verteilungen, mit denen ich arbeite, möglicherweise nicht annähernd diese Normalitätsbedingung erfüllen, ein gewisser (jedoch schwacher) Zusammenhang besteht.
Meine Intuition (die jemand mit mehr Mathe-Fu als ich möglicherweise mehr oder weniger rigoros rechtfertigen kann) ist, dass die klassischen analytischen Verteilungen gerade wegen der starken analytischen Einschränkungen, die zu ihrer "feinen / lokalen Struktur" führen, mächtig sind, und daher zu all den tiefgreifenden, weitreichenden Theoremen, die wir über sie haben. Es ist diese Theorie, die diese Verteilungen "mächtig" macht. Wenn diese Vermutung überhaupt zutrifft, würde man erwarten, dass aus solchen Verteilungen abgeleitete Analyseergebnisse tendenziell sehr empfindlich auf numerische Unvollkommenheiten (Ausreißer, Kollinearität usw.) in den Daten reagieren.
Auf jeden Fall interpretierte ich die numerischen Probleme, auf die ich stieß, möglicherweise als einen barmherzigen Hinweis der Götter der Statistik, dass ich das falsche Werkzeug für den Job verwendete.
Dies hat mich dazu gebracht, nach einer "verteilungsfreien" / "nichtparametrischen" Alternative zu zu .
1 Die Daten bestehen aus ~ 500 automatisch gesammelten Merkmalen einzelner kultivierter Zellen. Alle Merkmale haben positive Werte. Ich habe mir Histogramme mehrerer zufällig ausgewählter Merkmale angesehen, die auf zufälligen Teilstichproben der Daten basierten, und kein einziges gefunden, das normal verteilt aussah. diejenigen, die unimodal glockenförmig waren, hatten alle einen signifikanten Versatz. Einige Merkmale hatten extreme Ausreißer (daher enthielten die Histogramme nur ein oder zwei Behälter, die groß genug waren, um vom leeren Behälter unterschieden zu werden).
Die Zellen wurden aus Patientenbiopsien kultiviert, die in ~ 2500 Subkulturen unterteilt waren, die eine von ~ 800 verschiedenen möglichen Behandlungen erhielten, einschließlich einer Kontrolle ohne Behandlung. Die Behandlungen selbst fallen in ~ 200 verschiedene Gruppen. Stellen Sie sich daher vor, Sie teilen alle Beobachtungen in ~ 200 Teilproben auf, eine für jede dieser ~ 200 Behandlungsgruppen. Im Moment bin ich daran interessiert, die Abstände zwischen den (multivariaten) Probenverteilungen, die jeder dieser Teilproben entsprechen, und der Kontroll-Teilprobe (keine Behandlung) zu messen.
2 Genauer gesagt ist diese Umkehrung erforderlich, um mit der Formel zu berechnen , die ich dafür habe. In der Ableitung dieser speziellen Formel und nicht in der Definition von an sich erscheint die Normalitätsannahme. Ich habe die Formel aus Kailaths Arbeit von 1967 erhalten (Kailath, Thomas. "Die Divergenz- und Bhattacharyya-Entfernungsmaße bei der Signalauswahl." Communication Technology, IEEE Transactions on 15.1 (1967): 52-60.).