Clustering gemischter Datentypen mit R

19

Ich frage mich, ob es möglich ist, innerhalb von R ein Clustering von Daten mit gemischten Datenvariablen durchzuführen. Mit anderen Worten, ich habe einen Datensatz, der sowohl numerische als auch kategoriale Variablen enthält, und ich finde den besten Weg, sie zu gruppieren. In SPSS würde ich zweistufige Cluster verwenden. Ich frage mich, ob ich in R ähnliche Techniken finden kann. Mir wurde über das poLCA-Paket berichtet, aber ich bin mir nicht sicher ...

r clustering mixed-type-data

— Giorgio Spedicato
quelle

1

Ist SPSS TwoStep nicht für die Verarbeitung großer Datasets ausgelegt? (I bietet eine Antwort auf eine Frage im Zusammenhang hier .) Sonst wäre meine Antwort auf Can Hauptkomponentenanalyse auf Datensätze angewandt werden , um eine Mischung aus kontinuierlichen und kategorialen Variablen enthalten? Hilfe leisten?

— Chl

Innerhalb des R-Paket- Clusters gibt es eine Daisy, die eine Unähnlichkeitsmatrix für gemischte Daten erzeugt (Gower-Ähnlichkeitskoeffizient). Dann können Sie Flags oder andere Clustering-Funktionen verwenden.

— Rhonda

1

Verwechseln Sie die Methode nicht mit der Implementierung. Suchen Sie zunächst nach einem sinnvollen Clustering-Algorithmus. Suchen Sie dann nach einem R-Paket, das es implementiert.

— Shadowtalker

Gower-Ähnlichkeit kann verwendet werden.

— TTNPHNS

@gung hat kürzlich eine sehr ähnliche Frage geschlossen, die ich gestellt habe. Mir wurde gesagt, dass meine Frage nicht zum Thema gehörte, da es sich hauptsächlich um Software handelte. Ähnlich scheint es bei Software zu sein. Es würde mich sehr interessieren, warum die Regeln hier inkonsistent durchgesetzt werden. Wohlgemerkt, ich denke die Frage ist informativ, aber die Regeln sollten die Regeln sein.

— Weiwen Ng

8

Dies kann spät kommen, aber versuchen Sie es mit klaR ( http://cran.r-project.org/web/packages/klaR/index.html ).

install.packages("klar")

Es wird der nichthierarchische k-Moden-Algorithmus verwendet, der auf einer einfachen Anpassung als Abstandsfunktion basiert, sodass der Abstand δ zwischen einer Variablen m von zwei Datenpunkten und durch gegeben ist $x$ $y$

δ (x_{m}, y_{m}) = {\begin{cases} 1 & x_{m} \neq y_{m}, \\ 0 & Andernfalls \end{cases}

$\delta(x_m,y_m) = \begin{cases} 1 & x_m \neq y_m,\\ 0 & \text{otherwise} \end{cases}$

Das Paket weist einen Fehler auf: Wenn zwei Datenpunkte den gleichen Abstand zu einem Cluster-Zentrum haben, wird der erste in Ihren Daten anstelle eines zufälligen Punkts ausgewählt. Sie können das Bit im Code jedoch problemlos ändern.

Um das Clustering mit gemischten Variablen zu berücksichtigen, müssen Sie in den Code gehen und die Distanzfunktion ändern, um numerische und nicht numerische Modi und Variablen zu identifizieren.

— victor_v
quelle

7

Ein weiterer ansprechender Weg, mit Variablen gemischter Typen umzugehen, ist die Verwendung der Ähnlichkeitsmatrix aus Random Forests: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Dies ermöglicht eine einheitliche Behandlung aller Variablen (beachten Sie jedoch das Problem der Variablenauswahlverzerrung). Auf der anderen Seite gibt es wirklich keinen universellen Weg, um Entfernungen für Variablen gemischter Typen zu definieren. Es hängt alles von den Anwendungskontexten ab.

— XGS
quelle

4

Sie können die Mehrfachkorrespondenzanalyse verwenden, um aus den kategorialen Variablen fortlaufende Dimensionen zu erstellen, und diese dann in einem zweiten Schritt mit den numerischen Variablen verwenden.

— ftr
quelle

1

Wie würden Sie numerische Variablen in MCA behandeln? Diskretisierung nutzen?

— Chl

Es gibt Erweiterungen von MCA, die kontinuierliche Variablen enthalten können, siehe zum Beispiel Homogenitätsanalyse Homals

— kjetil b halvorsen

3

Na ja, das kannst du bestimmt. Indem Sie die kategorialen Variablen künstlich numerisch machen. Oder mit einem auf Distanzmatrix basierenden Clustering (fpc kann das wahrscheinlich). Die Frage, die Sie zuerst zu beantworten versuchen sollten, lautet: Ist das tatsächlich sinnvoll?

— Anony-Mousse
quelle

3

$j$ $k$

S_{G} = \frac{\sum_{ich = 1}^{n} w_{ich, j, k} s_{ich, j, k}}{\sum_{ich = 1}^{n} w_{ich, j, k}}

$S_G = \frac{\sum_{i=1}^n{w_{i,j,k} s_{i,j,k}}}{\sum_{i=1}^n{w_{i,j,k}}}$

i

$i$

$w_{i,j,k}$

$s_{i,j,k}$

$w_{i,j,k}$
Multistate-Zeichen (nominal oder ordinal): 1 für Gleichheit, 0 sonst (entspricht dem einfachen Übereinstimmungskoeffizienten)
$s_{i,j,k} = 1 - \frac{|X_{i,j} - X_{i,k}|}{R_i}$ $R_i$ $i$

$S_G$

$\sqrt{1-S_G}$

— Engelbert Buxbaum
quelle

Können Sie definieren, was "Charakter" (und "Kardinalcharakter") in Ihrer Antwort ist? Meinen Sie damit Variable / Attribut / Merkmal? Außerdem könnte ich hinzufügen, dass Gower für ordinale Variablen berechnet werden kann, ohne sie als nominal zu behandeln ("multistate"), siehe .

— TTNPHNS

Zeichen, Variable, Merkmal sind alle Synonyme. Kardinal bedeutet entweder Intervall oder rationale Skala.

— Engelbert Buxbaum

Vielen Dank für die Klärung. Ich habe nur gefragt, weil Ihre Terminologie in der Statistik oder beim maschinellen Lernen anscheinend nicht sehr verbreitet ist: "Charakter" ist ungewöhnlich, und was Sie als "Kardinal" -Variablentyp bezeichnen, ist normalerweise als "Skalen" -Variable oder "metrische" Variable bekannt, im Gegensatz zu kategorial .

— TTNPHNS

1

Wenn mögliche Werte von kategorialen Variablen nicht zu viele sind, können Sie Binärvariablen aus diesen Werten erstellen. Sie können diese binären Variablen als numerische Variablen behandeln und das Clustering ausführen. Das habe ich für mein Projekt getan.

— Raghvendra
quelle

1

Hier könnte das Clustering von k-Prototypen besser geeignet sein. Es kombiniert k-Modi und k-Mittelwerte und ist in der Lage, gemischte numerische / kategoriale Daten zu gruppieren. Verwenden Sie für R das Paket 'clustMixType'.

https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf

— Prashanth
quelle

0

VarSelLCM Pauschalangebote

Variablenauswahl für modellbasiertes Clustering von gemischten Datensätzen mit fehlenden Werten

Auf CRAN und mehr in Papierform beschrieben .

Einige der bisherigen Methoden haben den Vorteil, dass sie bei der Auswahl der Anzahl der Cluster hilfreich sind und mit fehlenden Daten umgehen können. Schöne glänzende App zur Verfügung gestellt wird auch nicht verpönt werden.

— radek
quelle