Robuste Cluster-Methode für gemischte Daten in R.


12

Ich möchte einen kleinen Datensatz gruppieren (64 Beobachtungen von 4 Intervallvariablen und einer einzelnen kategorialen Drei-Faktor-Variablen). Jetzt bin ich ziemlich neu in der Clusteranalyse, aber ich bin mir bewusst, dass seit den Tagen, als hierarchisches Clustering oder k-means die einzigen verfügbaren Optionen waren, erhebliche Fortschritte erzielt wurden. Insbesondere scheinen neue Methoden für modellbasiertes Clustering verfügbar zu sein, die, wie von chl hervorgehoben , die Verwendung von "Anpassungsgüteindizes zur Entscheidung über die Anzahl von Clustern oder Klassen" ermöglichen.

Das Standard-R-Paket für modellbasiertes Clustering mclustpasst jedoch offenbar nicht zu Modellen mit gemischten Datentypen. Das fpcModell wird, aber es gibt Probleme beim Anpassen eines Modells, ich vermute aufgrund der nicht-gaußschen Natur der kontinuierlichen Variablen. Soll ich mit dem modellbasierten Ansatz fortfahren? Ich möchte R nach Möglichkeit weiterhin verwenden. Aus meiner Sicht habe ich einige Möglichkeiten:

  1. Konvertieren Sie die dreistufige kategoriale Variable in zwei Dummy-Variablen und verwenden Sie mclust. Ich bin mir nicht sicher, ob dies die Ergebnisse beeinflusst, aber wenn nicht, ist dies meine bevorzugte Option.
  2. Transformiere die stetigen Variablen irgendwie und benutze das fpcPaket.
  3. Verwenden Sie ein anderes R-Paket, auf das ich noch nicht gestoßen bin.
  4. Erstellen Sie eine Unähnlichkeitsmatrix mit Gowers Maß und verwenden Sie traditionelle hierarchische oder Umsiedlungsclustertechniken.

Hat die stats.se hivemind hier irgendwelche Vorschläge?


Um Ihre kategorialen Daten in Dummy-codierte (eine Hot-codierte) Daten zu konvertieren, können Sie die Funktion dummy.data.frame verwenden. Als Eingabe können Sie Ihre gemischten Daten angeben und als Ausgabe werden nur die kategorialen Daten codiert.
Naghmeh

Antworten:


7

Ich würde Ihnen empfehlen, Gower für nachfolgende hierarchische Cluster zu verwenden. Hierarchisches Clustering bleibt bei einer geringen Anzahl von Objekten (z. B. 64) die flexibelste und geeignetste Methode. Wenn Ihre kategoriale Variable nominal ist, wird sie von Gower intern in Dummy-Variablen umcodiert und auf Basis der Würfelähnlichkeit (als Teil von Gower) erstellt. Wenn Ihre Variable ordinal ist, sollten Sie wissen, dass die neueste Version des Gower-Koeffizienten sie auch aufnehmen kann.

Zahlreiche Indizes zur Bestimmung der "besten" Anzahl von Clustern existieren unabhängig von diesem oder jenem Clustering-Algorithmus. Sie müssen nicht nach Clustering-Paketen suchen, die notwendigerweise solche Indizes enthalten, da letztere möglicherweise als separate Pakete vorhanden sind. Sie verlassen nach einem Clustering-Paket eine Reihe von Cluster-Lösungen und vergleichen diese anhand eines Index aus einem anderen Paket.


Ich bin diesen Weg gegangen, danke für den Tipp.
Mark
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.