Ich habe einen Datensatz X mit 10 Dimensionen, von denen 4 diskrete Werte sind. Tatsächlich sind diese 4 diskreten Variablen ordinal, dh ein höherer Wert impliziert eine höhere / bessere Semantik.
2 dieser diskreten Variablen sind in dem Sinne kategorisch, dass für jede dieser Variablen der Abstand, z. B. von 11 bis 12, nicht dem Abstand von 5 bis 6 entspricht. Während ein höherer Variablenwert in der Realität einen höheren impliziert, ist der Maßstab gleich nicht unbedingt linear (in der Tat ist es nicht wirklich definiert).
Meine Frage ist:
- Ist es eine gute Idee, einen gemeinsamen Clustering-Algorithmus (z. B. K-Means und dann Gaussian Mixture (GMM)) auf diesen Datensatz anzuwenden, der sowohl diskrete als auch kontinuierliche Variablen enthält?
Wenn nicht:
- Sollte ich die diskreten Variablen entfernen und mich nur auf die kontinuierlichen konzentrieren?
- Sollte ich die kontinuierlichen besser diskretisieren und einen Clustering-Algorithmus für diskrete Daten verwenden?