Angemessenheit der ANOVA nach k-Means-Cluster-Analyse


14

Die Meldung nach der ANOVA-Tabelle nach der K-Mittelwert-Analyse zeigt, dass Signifikanzniveaus nicht als Test gleicher Mittelwerte betrachtet werden sollten, da die Cluster-Lösung basierend auf dem euklidischen Abstand abgeleitet wurde, um den Abstand zu maximieren. Welchen Test sollte ich verwenden, um zu zeigen, ob sich die Mittelwerte der Clustervariablen zwischen den Clustern unterscheiden? Ich habe diese Warnung in der von k-means ausgegebenen ANOVA-Tabelle gesehen, aber in einigen Referenzen sehe ich, dass Post-Hoc-ANOVA-Tests ausgeführt werden. Sollte ich k-mean ANOVA-Ausgaben ignorieren und eine Einweg-ANOVA mit Post-hoc-Tests ausführen und sie auf herkömmliche Weise interpretieren? Oder kann ich nur einen Hinweis auf die Größe des F-Werts geben und welche Variablen haben mehr zum Unterschied beigetragen? Eine weitere Verwirrung ist, dass Cluster-Variablen nicht normal verteilt sind, was gegen die Annahme von ANOVA verstößt. dann könnte ich Kruskal-Wallis nicht-parametrischen Test verwenden, aber es hat die Annahme über die gleichen Verteilungen. Die Inter-Cluster-Verteilungen für die spezifischen Variablen scheinen nicht gleich zu sein, einige sind positiv verzerrt, andere negativ ... Ich habe 1275 große Stichproben, 5 Cluster, 10 Cluster-Variablen, gemessen in PCA-Scores.


Warum müssen Sie die Mittelgleichheit prüfen? Können Sie nicht einfach testen, wie Ihr Modell anhand eines Musters funktioniert?
James

Ich wollte herausfinden, welche Mittelwerte der Variablen zwischen den Clustern unterschiedlich sind, dh ob der Mittelwert von v1 in Cluster1 vom Mittelwert von v1 in Cluster 2, 3, 4, 5 abweicht nicht über den statistischen Unterschied erzählen. Der Test auf statistische Unterschiede machte mich verwirrt, da meine Daten für ANOVA nicht der Normalverteilungsannahme entsprachen, sondern für Kruskal Wallis die gleiche Formverteilungsannahme unter Clustergruppen.
Inga

1
Wie @James in seiner Antwort zeigte, "schnüffeln" Sie. Was könnte ein Grund sein, die Signifikanz zwischen Gruppen zu testen, die Sie (Ihr Clustering) vorausgewählt haben, um sich so weit wie möglich zu unterscheiden? Hier gibt es keine Anzeichen für zufällige oder proportionale Stichproben aus Populationen, die sich aufgrund einiger äußerer , hintergründiger Merkmale unterscheiden.
TTNPHNS

Danke für die Antworten! Meine Verwirrung zeigte sich, als ich in einigen Quellen sehe, dass statistische Mittelwertvergleiche in dieser Situation nicht angemessen sind, wie Sie auch gezeigt haben, aber z Um zu beurteilen, wie unterschiedlich unsere Cluster sind, würden wir im Idealfall für die meisten, wenn nicht alle Dimensionen, die in der Analyse verwendet werden, signifikant unterschiedliche Mittelwerte erhalten. Die Größe der F-Werte, die für jede Dimension durchgeführt werden, ist ein Hinweis darauf, wie gut die jeweilige Dimension unterscheidet Cluster "
Inga

1
Sie haben das Recht, die Unterschiede zwischen Clustern anhand der Merkmale zu beurteilen, die für die Clusterung verwendet wurden, um die diskriminierendsten zu ermitteln. Dabei können Sie relative Differenzen, F-Werte und sogar p-Werte berechnen. Als Indikator für die Effektgröße. Nicht als Indikatoren für statistische Signifikanz (die sich auf Populationen beziehen).
TTNPHNS

Antworten:


13

Nein!

Sie dürfen nicht dieselben Daten verwenden, um 1) Clustering durchzuführen und 2) signifikante Unterschiede zwischen den Punkten in den Clustern zu suchen. Selbst wenn die Daten keine tatsächliche Struktur aufweisen, wird durch die Clusterbildung eine Struktur durch Gruppieren von Punkten in der Nähe festgelegt. Dies verringert die gruppeninterne Varianz und erhöht die gruppenübergreifende Varianz, wodurch Sie zu falsch positiven Ergebnissen neigen.

Dieser Effekt ist überraschend stark. Hier sind die Ergebnisse einer Simulation , die 1000 Datenpunkte aus einer Standardnormalverteilung zeichnet. Wenn wir die Punkte vor dem Ausführen der ANOVA zufällig einer von fünf Gruppen zuordnen, stellen wir fest, dass die p-Werte gleichmäßig verteilt sind: 5% der Läufe sind signifikant auf der (unkorrigierten) 0,05-Ebene, 1% auf der 0,01-Ebene. usw. Mit anderen Worten, es gibt keine Wirkung. Wenn jedoch mean verwendet wird, um die Daten in 5 Gruppen zu gruppieren, stellen wir praktisch jedes Mal einen signifikanten Effekt fest, obwohl die Daten keine tatsächliche Struktur aufweisen .k

Die Simulationsergebnisse zeigen eine gleichmäßige Verteilung der p-Werte für die Zufallszuweisungen und eine stark verzerrte (fast alle 0,05 oder weniger) Verteilung der p-Werte nach dem Clustering

Eine ANOVA hat hier nichts Besonderes - Sie würden ähnliche Effekte bei Verwendung nicht parametrischer Tests, logistischer Regression usw. feststellen. Im Allgemeinen ist die Überprüfung der Leistung eines Clustering-Algorithmus schwierig, insbesondere wenn die Daten nicht beschriftet sind. Es gibt jedoch einige Ansätze zur "internen Validierung" oder zur Messung der Clusterqualität ohne Verwendung externer Datenquellen. Sie konzentrieren sich im Allgemeinen auf die Kompaktheit und Trennbarkeit der Cluster. Dieser Aufsatz von Lui et al. (2010) könnte ein guter Anfang sein.


4

Ihr eigentliches Problem ist das Aufspüren von Daten. Sie können ANOVA oder KW nicht anwenden, wenn die Beobachtungen anhand des Eingabedatensatzes selbst Gruppen (Clustern) zugeordnet wurden. Was Sie tun können, ist die Verwendung einer Gap-Statistik , um die Anzahl der Cluster zu schätzen.

Auf der anderen Seite sind die abgeschnittenen p-Werte nach unten vorgespannt. Wenn also das ANOVA- oder KW-Testergebnis nicht signifikant ist, ist der "wahre" p-Wert noch größer und Sie können entscheiden, die Cluster zusammenzuführen.


4

Ich denke, Sie könnten einen solchen Ansatz anwenden (dh die Statistiken wie F-Statistiken oder t-Statistiken oder was auch immer verwenden), wenn Sie die üblichen Nullverteilungen wegwerfen .

Sie müssen lediglich die Situation simulieren, in der Ihr Nullwert wahr ist, die gesamte Prozedur (Clustering usw.) anwenden und dann jedes Mal die jeweilige Statistik berechnen. Bei vielen Simulationen erhalten Sie eine Verteilung für die Statistik unter der Null, mit der Ihr Stichprobenwert verglichen werden kann. Indem Sie das Daten-Snooping in die Berechnung einbeziehen, berücksichtigen Sie dessen Wirkung.

[Alternativ könnte man vielleicht einen Resampling-basierten Test entwickeln (ob auf Permutation / Randomisierung oder Bootstrapping basierend).]


2
Richtig, das ist die Idee hinter der Gap-Statistik.
James
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.