Schätzen der wichtigsten Features in einer k-means-Clusterpartition


19

Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?


1
Wie definieren Sie "wichtig / dominant"? Meinen Sie die nützlichste Methode zur Unterscheidung zwischen Clustern?
Franck Dernoncourt

3
Ja, das Nützlichste ist, was ich meinte. Ich denke, ein Teil meines Problems ist, wie ich es ausdrücken soll.
user1624577

Danke für die Klarstellung. Eine übliche Bezeichnung für dieses Problem beim maschinellen Lernen ist die Merkmalsauswahl .
Franck Dernoncourt

Antworten:


8

Eine Möglichkeit zur Quantifizierung des Nutzens jedes Merkmals (= Variable = Dimension) aus dem Buch Burns, Robert P. und Richard Burns. Business Research Methoden und Statistiken mit SPSS. Sage, 2008. ( Spiegel ), wobei die Nützlichkeit durch die Unterscheidungskraft der Merkmale definiert wird, um Cluster voneinander zu unterscheiden.

Normalerweise untersuchen wir die Mittelwerte für jeden Cluster in jeder Dimension mithilfe von ANOVA, um festzustellen, wie unterschiedlich unsere Cluster sind. Idealerweise würden wir für die meisten, wenn nicht alle Dimensionen, die in der Analyse verwendet werden, signifikant unterschiedliche Mittel erhalten. Die Größe der F-Werte, die für jede Dimension durchgeführt werden, ist ein Hinweis darauf, wie gut die jeweilige Dimension zwischen Clustern unterscheidet.

Eine andere Möglichkeit wäre, ein bestimmtes Feature zu entfernen und zu sehen, wie sich dies auswirkt internen Qualitätsindizes auswirkt . Im Gegensatz zur ersten Lösung müssten Sie das Clustering für jedes Feature (oder jede Feature-Gruppe), das Sie analysieren möchten, wiederholen.

Zu Ihrer Information:


4
Es ist sehr wichtig in diesem Zusammenhang hinzufügen , dass man sollte nicht jene F (oder p) Werte als Indikatoren für die statistische Signifikanz (dh im Verhältnis der Bevölkerung), sondern lediglich als Indikatoren für die Größe der Unterschiede nehmen.
TTNPHNS

3

Ich kann mir zwei andere Möglichkeiten vorstellen, die sich mehr darauf konzentrieren, welche Variablen für welche Cluster wichtig sind.

  1. Mehrklasseneinteilung. Betrachten Sie die Objekte, die zu Cluster x- Mitgliedern derselben Klasse gehören (z. B. Klasse 1), und die Objekte, die zu anderen Clustermitgliedern einer zweiten Klasse gehören (z. B. Klasse 2). Trainieren Sie einen Klassifikator, um die Klassenzugehörigkeit vorherzusagen (z. B. Klasse 1 gegen Klasse 2). Die variablen Koeffizienten des Klassifikators können dazu dienen, die Wichtigkeit jeder Variablen beim Clustering von Objekten zu Cluster x abzuschätzen . Wiederholen Sie diesen Ansatz für alle anderen Cluster.

  2. Ähnlichkeit von Variablen innerhalb eines Clusters. Berechnen Sie für jede Variable die durchschnittliche Ähnlichkeit jedes Objekts mit seinem Schwerpunkt. Eine Variable mit hoher Ähnlichkeit zwischen einem Schwerpunkt und seinen Objekten ist für den Clusterprozess wahrscheinlich wichtiger als eine Variable mit geringer Ähnlichkeit. Natürlich ist die Größe der Ähnlichkeit relativ, aber jetzt können Variablen nach dem Grad eingestuft werden, in dem sie dazu beitragen, die Objekte in den einzelnen Clustern zu gruppieren.


0

Hier ist eine sehr einfache Methode. Beachten Sie, dass der euklidische Abstand zwischen zwei Clusterzentren eine Summe der quadratischen Unterschiede zwischen einzelnen Merkmalen ist. Wir können dann einfach die quadratische Differenz als Gewicht für jedes Merkmal verwenden.

Euklidische Entfernung

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.