Ich möchte einen kleinen Datensatz gruppieren (64 Beobachtungen von 4 Intervallvariablen und einer einzelnen kategorialen Drei-Faktor-Variablen). Jetzt bin ich ziemlich neu in der Clusteranalyse, aber ich bin mir bewusst, dass seit den Tagen, als hierarchisches Clustering oder k-means die einzigen verfügbaren Optionen waren, erhebliche Fortschritte erzielt wurden. Insbesondere scheinen neue Methoden für modellbasiertes Clustering verfügbar zu sein, die, wie von chl hervorgehoben , die Verwendung von "Anpassungsgüteindizes zur Entscheidung über die Anzahl von Clustern oder Klassen" ermöglichen.
Das Standard-R-Paket für modellbasiertes Clustering mclust
passt jedoch offenbar nicht zu Modellen mit gemischten Datentypen. Das fpc
Modell wird, aber es gibt Probleme beim Anpassen eines Modells, ich vermute aufgrund der nicht-gaußschen Natur der kontinuierlichen Variablen. Soll ich mit dem modellbasierten Ansatz fortfahren? Ich möchte R nach Möglichkeit weiterhin verwenden. Aus meiner Sicht habe ich einige Möglichkeiten:
- Konvertieren Sie die dreistufige kategoriale Variable in zwei Dummy-Variablen und verwenden Sie
mclust
. Ich bin mir nicht sicher, ob dies die Ergebnisse beeinflusst, aber wenn nicht, ist dies meine bevorzugte Option. - Transformiere die stetigen Variablen irgendwie und benutze das
fpc
Paket. - Verwenden Sie ein anderes R-Paket, auf das ich noch nicht gestoßen bin.
- Erstellen Sie eine Unähnlichkeitsmatrix mit Gowers Maß und verwenden Sie traditionelle hierarchische oder Umsiedlungsclustertechniken.
Hat die stats.se hivemind hier irgendwelche Vorschläge?