Ich habe eine Reihe von Dateien, die aus zufällig ausgewählten Punkten aus einem Datensatz bestehen, wobei jede Datei zu einer bestimmten Klasse gehört. Jede Zeile in diesen Dateien enthält die Koordinaten im n-Raum des Punktes. Ich möchte die Verteilungen im n-Raum jeder dieser Dateien vergleichen - und bin vom KS-Test zum Vergleichen von Histogrammen inspiriert. Nach dem, was ich gelesen habe, erstreckt sich diese Methode nicht gut auf multivariate Daten. Ich hatte zuvor PCA verwendet - aber meine gesamte Varianz ist in einer einzigen verrauschten Dimension zusammengebrochen, und Clustering-Methoden waren nutzlos.
Meine Frage: Gibt es einen Grund, warum ich nicht einfach einen Durchschnitt der KS-Werte über das Histogramm für jede der n-Dimensionen als Metrik für die Anpassungsgüte verwenden sollte? Gibt es eine bessere Methode zum Vergleichen dieser Verteilungen?