Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?
Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?
Antworten:
Eine Möglichkeit zur Quantifizierung des Nutzens jedes Merkmals (= Variable = Dimension) aus dem Buch Burns, Robert P. und Richard Burns. Business Research Methoden und Statistiken mit SPSS. Sage, 2008. ( Spiegel ), wobei die Nützlichkeit durch die Unterscheidungskraft der Merkmale definiert wird, um Cluster voneinander zu unterscheiden.
Normalerweise untersuchen wir die Mittelwerte für jeden Cluster in jeder Dimension mithilfe von ANOVA, um festzustellen, wie unterschiedlich unsere Cluster sind. Idealerweise würden wir für die meisten, wenn nicht alle Dimensionen, die in der Analyse verwendet werden, signifikant unterschiedliche Mittel erhalten. Die Größe der F-Werte, die für jede Dimension durchgeführt werden, ist ein Hinweis darauf, wie gut die jeweilige Dimension zwischen Clustern unterscheidet.
Eine andere Möglichkeit wäre, ein bestimmtes Feature zu entfernen und zu sehen, wie sich dies auswirkt internen Qualitätsindizes auswirkt . Im Gegensatz zur ersten Lösung müssten Sie das Clustering für jedes Feature (oder jede Feature-Gruppe), das Sie analysieren möchten, wiederholen.
Zu Ihrer Information:
Ich kann mir zwei andere Möglichkeiten vorstellen, die sich mehr darauf konzentrieren, welche Variablen für welche Cluster wichtig sind.
Mehrklasseneinteilung. Betrachten Sie die Objekte, die zu Cluster x- Mitgliedern derselben Klasse gehören (z. B. Klasse 1), und die Objekte, die zu anderen Clustermitgliedern einer zweiten Klasse gehören (z. B. Klasse 2). Trainieren Sie einen Klassifikator, um die Klassenzugehörigkeit vorherzusagen (z. B. Klasse 1 gegen Klasse 2). Die variablen Koeffizienten des Klassifikators können dazu dienen, die Wichtigkeit jeder Variablen beim Clustering von Objekten zu Cluster x abzuschätzen . Wiederholen Sie diesen Ansatz für alle anderen Cluster.
Ähnlichkeit von Variablen innerhalb eines Clusters. Berechnen Sie für jede Variable die durchschnittliche Ähnlichkeit jedes Objekts mit seinem Schwerpunkt. Eine Variable mit hoher Ähnlichkeit zwischen einem Schwerpunkt und seinen Objekten ist für den Clusterprozess wahrscheinlich wichtiger als eine Variable mit geringer Ähnlichkeit. Natürlich ist die Größe der Ähnlichkeit relativ, aber jetzt können Variablen nach dem Grad eingestuft werden, in dem sie dazu beitragen, die Objekte in den einzelnen Clustern zu gruppieren.