Clusteranalyse gefolgt von Diskriminanzanalyse


10

Was ist der Grund, wenn überhaupt, die Diskriminanzanalyse (Discriminant Analysis, DA) für die Ergebnisse eines Clustering-Algorithmus wie k-means zu verwenden, wie ich es von Zeit zu Zeit in der Literatur sehe (im Wesentlichen zur klinischen Subtypisierung von psychischen Störungen)?

Es wird im Allgemeinen nicht empfohlen, Gruppenunterschiede bei den Variablen zu testen, die während der Clusterkonstruktion verwendet wurden, da sie die Maximierung (bzw. Minimierung) der Trägheit zwischen Klassen (bzw. innerhalb der Klasse) unterstützen. Daher bin ich mir nicht sicher, ob ich den Mehrwert von prädiktiver DA vollständig einschätzen kann, es sei denn, wir versuchen, Einzelpersonen in einen faktoriellen Raum niedrigerer Dimension einzubetten und eine Vorstellung von der "Generalisierbarkeit" einer solchen Partition zu bekommen. Aber auch in diesem Fall bleibt die Clusteranalyse grundsätzlich ein exploratives Werkzeug. Daher erscheint es auf den ersten Blick seltsam, die auf diese Weise berechnete Klassenmitgliedschaft zu verwenden, um eine Bewertungsregel weiter abzuleiten.

Irgendwelche Empfehlungen, Ideen oder Hinweise auf relevante Papiere?


Hier ist eine Erklärung und ein Beispiel mit R: cran.r-project.org/web/packages/adegenet/vignettes/…
Ben

Antworten:


5

Ich kenne keine Papiere dazu. Ich habe diesen Ansatz zu beschreibenden Zwecken verwendet. DFA bietet eine gute Möglichkeit, Gruppenunterschiede und Dimensionalität in Bezug auf die ursprünglichen Variablen zusammenzufassen. Man könnte die Gruppen leichter auf den ursprünglichen Variablen profilieren, dies verliert jedoch die inhärent multivariate Natur des Clustering-Problems. Mit DFA können Sie die Gruppen beschreiben, während der multivariate Charakter des Problems erhalten bleibt. Es kann also bei der Interpretation der Cluster helfen, wo dies ein Ziel ist. Dies ist besonders ideal, wenn eine enge Beziehung zwischen Ihrer Clustering-Methode und Ihrer Klassifizierungsmethode besteht - z. B. DFA- und Ward-Methode.

Sie haben Recht mit dem Testproblem. Ich habe ein Papier mit der Clusteranalyse mit DFA-Follow-up veröffentlicht, um die Clustering-Lösung zu beschreiben. Ich habe die DFA-Ergebnisse ohne Teststatistik präsentiert. Ein Rezensent hatte Probleme damit. Ich habe die Teststatistik und die p-Werte eingeräumt und dort eingefügt, mit dem Hinweis, dass diese p-Werte nicht auf herkömmliche Weise interpretiert werden sollten.


Was wären die Verfahrensschritte von DA nach dem Clustering? Können Sie sich andere Techniken vorstellen, um herauszufinden, welche ursprünglichen Variablen bestimmte Cluster von anderen unterscheiden?
danas.zuokas

Möchtest du das Zitat zu diesem Papier teilen, Brett?
Roman Luštrik

Weissman & Magill. 2008. "Entwicklung einer Schülertypologie zur Untersuchung der Wirksamkeit von Seminaren im ersten Jahr" Journal of The First-Year Experience & Students in Transition 20 (2). Kontaktieren Sie mich offline, wenn Sie eine Hardcopy wünschen.
Brett
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.