Kolmogorov-Smirnov-Test für multivariate Daten

8

Ich habe eine Reihe von Dateien, die aus zufällig ausgewählten Punkten aus einem Datensatz bestehen, wobei jede Datei zu einer bestimmten Klasse gehört. Jede Zeile in diesen Dateien enthält die Koordinaten im n-Raum des Punktes. Ich möchte die Verteilungen im n-Raum jeder dieser Dateien vergleichen - und bin vom KS-Test zum Vergleichen von Histogrammen inspiriert. Nach dem, was ich gelesen habe, erstreckt sich diese Methode nicht gut auf multivariate Daten. Ich hatte zuvor PCA verwendet - aber meine gesamte Varianz ist in einer einzigen verrauschten Dimension zusammengebrochen, und Clustering-Methoden waren nutzlos.

Meine Frage: Gibt es einen Grund, warum ich nicht einfach einen Durchschnitt der KS-Werte über das Histogramm für jede der n-Dimensionen als Metrik für die Anpassungsgüte verwenden sollte? Gibt es eine bessere Methode zum Vergleichen dieser Verteilungen?

— bab
quelle

3

ROOT unterstützt Kolmogorov-Tests an höherdimensionalen Histogrammen, und die Notizen (für die 2D-Version) deuten darauf hin, dass es eine Mehrdeutigkeit gibt - mit der sie durch Stechen umgehen: Berechnen Sie sie in beide Richtungen. Ich weiß nicht, ob der Code weitere Details enthält, aber die Kommentare enthalten manchmal Verweise auf Artikel und dergleichen.

Es gibt einige zusätzliche interessante Kommentare in den Anmerkungen zu TH1::KolmogorovTest.

— dmckee --- Ex-Moderator Kätzchen
quelle

3

$\overline x$ $C$ $V(x):=(x-\overline x)^TC^{-1}(x-\overline x)$

— Arnold Neumaier
quelle