Der Mahalanobis-Abstand nimmt bei Verwendung zu Klassifizierungszwecken typischerweise eine multivariate Normalverteilung an, und die Abstände vom Schwerpunkt sollten dann einer Verteilung folgen (wobei Freiheitsgrade gleich der Anzahl der Dimensionen / Merkmale sind). Wir können die Wahrscheinlichkeit, dass ein neuer Datenpunkt zur Menge gehört, anhand seiner Mahalanobis-Entfernung berechnen.
Ich habe Datensätze, die keiner multivariaten Normalverteilung folgen ( ). Theoretisch sollte jedes Merkmal einer Poisson-Verteilung folgen, und empirisch scheint dies für viele ( ) Merkmale der Fall zu sein , und diejenigen, die sich nicht im Rauschen befinden und aus der Analyse entfernt werden können. Wie kann ich neue Punkte für diese Daten klassifizieren?
Ich denke, es gibt zwei Komponenten:
- Was ist eine geeignete "Mahalanobis-Distanz" -Formel für diese Daten (dh multivariate Poisson-Verteilung)? Gibt es eine Verallgemeinerung der Entfernung zu anderen Verteilungen?
- Ob ich den normalen Mahalanobis-Abstand oder eine andere Formulierung verwende, wie sollte die Verteilung dieser Abstände sein? Gibt es eine andere Möglichkeit, den Hypothesentest durchzuführen?
Alternative...
Die Anzahl der bekannten Datenpunkte in jeder Klasse variiert stark von (zu wenige; ich werde empirisch ein Minimum bestimmen) bis etwa . Der Mahalanobis-Abstand skaliert mit , sodass Abstände von einem Modell / einer Klasse zum nächsten nicht direkt verglichen werden können. Wenn die Daten normal verteilt sind, bietet der Chi-Quadrat-Test eine Möglichkeit, Entfernungen von verschiedenen Modellen zu vergleichen (zusätzlich zur Bereitstellung kritischer Werte oder Wahrscheinlichkeiten). Wenn es eine andere Möglichkeit ist, direkt auf die „Mahalanobis-like“ Entfernungen zu vergleichen, auch wenn es sich nicht Wahrscheinlichkeiten liefern, könnte ich damit arbeiten.