Ich habe einen Datensatz, der aus 5 Merkmalen besteht: A, B, C, D, E. Sie sind alle numerische Werte. Anstatt ein dichtebasiertes Clustering durchzuführen, möchte ich die Daten auf eine entscheidungsbaumartige Weise gruppieren.
Der Ansatz, den ich meine, ist ungefähr so:
Der Algorithmus kann die Daten basierend auf Merkmal C in X anfängliche Cluster aufteilen, dh die X-Cluster können kleine C-, mittlere C-, große C- und sehr große C-Werte usw. aufweisen. Als nächstes unterteilt der Algorithmus unter jedem der X-Cluster-Knoten weiter Die Daten werden basierend auf Merkmal A in Y-Cluster aufgeteilt. Der Algorithmus wird fortgesetzt, bis alle Merkmale verwendet wurden.
Der Algorithmus, den ich oben beschrieben habe, ist wie ein Entscheidungsbaumalgorithmus. Aber ich brauche es für unbeaufsichtigtes Clustering anstatt für überwachte Klassifizierung.
Meine Fragen sind folgende:
- Gibt es solche Algorithmen schon? Was ist der richtige Name für einen solchen Algorithmus
- Gibt es ein R / Python-Paket / eine Bibliothek, in der diese Art von Algorithmen implementiert sind?
CHAID
zum Beispiel den Baum. Sie müssen die abhängige Variable auswählen. Sei es A. Der Algorithmus wählt unter B, C, D, E die Variable aus, die am meisten mit A korreliert, und teilt diese Variable (sagen wir, es ist der Prädiktor, sei D) in zwei oder mehr Kategorien "optimal" ein - damit die Korrelation (Zwischen der kategorisierten Variablen D und der Variablen A wird die Maximierung erreicht. Angenommen, es bleiben 3 Gruppen übrig, D1, D2, D3. Anschließend wird das gleiche Verfahren in jeder Kategorie (Gruppe) von D separat und dem besten Prädiktor unter B, C wiederholt , E ist unter Binning es usw. gesucht. Was genau passt nicht zu Ihnen hier?
But I need it for unsupervised clustering, instead of supervised classification
Dieser Schlüsselbegriff ist zu kurz und erklärt nicht klar, was Sie wollen. Darüber haben Sie beschrieben, was mir als Entscheidungsbaum erscheint. Können Sie jetzt eine ähnliche Passage über die von Ihnen gewünschte Algo geben?