Ich möchte einen kleinen Datensatz gruppieren (64 Beobachtungen von 4 Intervallvariablen und einer einzelnen kategorialen Drei-Faktor-Variablen). Jetzt bin ich ziemlich neu in der Clusteranalyse, aber ich bin mir bewusst, dass seit den Tagen, als hierarchisches Clustering oder k-means die einzigen verfügbaren Optionen waren, erhebliche Fortschritte erzielt wurden. Insbesondere scheinen neue Methoden für modellbasiertes Clustering verfügbar zu sein, die, wie von chl hervorgehoben , die Verwendung von "Anpassungsgüteindizes zur Entscheidung über die Anzahl von Clustern oder Klassen" ermöglichen.
Das Standard-R-Paket für modellbasiertes Clustering mclustpasst jedoch offenbar nicht zu Modellen mit gemischten Datentypen. Das fpcModell wird, aber es gibt Probleme beim Anpassen eines Modells, ich vermute aufgrund der nicht-gaußschen Natur der kontinuierlichen Variablen. Soll ich mit dem modellbasierten Ansatz fortfahren? Ich möchte R nach Möglichkeit weiterhin verwenden. Aus meiner Sicht habe ich einige Möglichkeiten:
- Konvertieren Sie die dreistufige kategoriale Variable in zwei Dummy-Variablen und verwenden Sie
mclust. Ich bin mir nicht sicher, ob dies die Ergebnisse beeinflusst, aber wenn nicht, ist dies meine bevorzugte Option. - Transformiere die stetigen Variablen irgendwie und benutze das
fpcPaket. - Verwenden Sie ein anderes R-Paket, auf das ich noch nicht gestoßen bin.
- Erstellen Sie eine Unähnlichkeitsmatrix mit Gowers Maß und verwenden Sie traditionelle hierarchische oder Umsiedlungsclustertechniken.
Hat die stats.se hivemind hier irgendwelche Vorschläge?