Was ist der Grund, wenn überhaupt, die Diskriminanzanalyse (Discriminant Analysis, DA) für die Ergebnisse eines Clustering-Algorithmus wie k-means zu verwenden, wie ich es von Zeit zu Zeit in der Literatur sehe (im Wesentlichen zur klinischen Subtypisierung von psychischen Störungen)?
Es wird im Allgemeinen nicht empfohlen, Gruppenunterschiede bei den Variablen zu testen, die während der Clusterkonstruktion verwendet wurden, da sie die Maximierung (bzw. Minimierung) der Trägheit zwischen Klassen (bzw. innerhalb der Klasse) unterstützen. Daher bin ich mir nicht sicher, ob ich den Mehrwert von prädiktiver DA vollständig einschätzen kann, es sei denn, wir versuchen, Einzelpersonen in einen faktoriellen Raum niedrigerer Dimension einzubetten und eine Vorstellung von der "Generalisierbarkeit" einer solchen Partition zu bekommen. Aber auch in diesem Fall bleibt die Clusteranalyse grundsätzlich ein exploratives Werkzeug. Daher erscheint es auf den ersten Blick seltsam, die auf diese Weise berechnete Klassenmitgliedschaft zu verwenden, um eine Bewertungsregel weiter abzuleiten.
Irgendwelche Empfehlungen, Ideen oder Hinweise auf relevante Papiere?
R
: cran.r-project.org/web/packages/adegenet/vignettes/…