Als «hierarchical-clustering» getaggte Fragen

Die hierarchische Clusteranalyse ist eine Methode der Clusteranalyse, die schrittweise eine Clusterhierarchie und ein Dendrogramm erstellt. Am beliebtesten ist das agglomerative hierarchische Clustering (HAC), das von einzelnen Objekten ausgeht und diese zu immer größeren Clustern zusammenfasst.

3
Wie wähle ich eine Clustering-Methode aus? Wie validiere ich eine Cluster-Lösung (um die Wahl der Methode zu rechtfertigen)?
Eines der größten Probleme bei der Clusteranalyse ist, dass wir möglicherweise unterschiedliche Schlussfolgerungen ziehen müssen, wenn wir auf unterschiedlichen verwendeten Clustering-Methoden (einschließlich unterschiedlicher Verknüpfungsmethoden bei hierarchischem Clustering) basieren. Ich möchte Ihre Meinung dazu wissen - welche Methode Sie wählen, und wie. Man könnte sagen "Die beste Methode zum Clustering ist …




4
Wie kann man die Nachteile von Hierarchical Clustering verstehen?
Kann jemand die Vor- und Nachteile von Hierarchical Clustering erklären? Hat hierarchisches Clustering die gleichen Nachteile wie K? Was sind die Vorteile von Hierarchical Clustering gegenüber K? Wann sollten wir K-Mittel anstelle von Hierarchical Clustering verwenden und umgekehrt? Antworten auf diesen Beitrag erklären die Nachteile von k sehr gut. Wie …

2
Clustering - Intuition hinter Kleinbergs Unmöglichkeitssatz
Ich habe darüber nachgedacht, einen Blogbeitrag zu dieser interessanten Analyse von Kleinberg (2002) zu schreiben , in dem die Schwierigkeit der Clusterbildung untersucht wird. Kleinberg skizziert drei scheinbar intuitive Desiderata für eine Clustering-Funktion und beweist dann, dass keine solche Funktion existiert. Es gibt viele Cluster-Algorithmen, die zwei der drei Kriterien …

4
Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


2
Muss eine Entfernung eine „Metrik“ sein, damit ein hierarchisches Clustering darauf gültig ist?
Nehmen wir an, wir definieren einen Abstand zwischen N Elementen , der keine Metrik ist. Basierend auf dieser Entfernung verwenden wir dann ein agglomeratives hierarchisches Clustering . Können wir jeden der bekannten Algorithmen (Einzel- / Maximal- / Durchschnittsverknüpfung usw.) verwenden, um aussagekräftige Ergebnisse zu erzielen? Oder anders ausgedrückt, was ist …


2
Auswählen der Anzahl der Cluster - Kriterien für die Clustervalidierung im Vergleich zu domänentheoretischen Überlegungen
Ich stehe oft vor dem Problem, eine bestimmte Anzahl von Clustern auswählen zu müssen. Die Partition, die ich am Ende wähle, basiert häufiger auf visuellen und theoretischen Bedenken als auf Qualitätskriterien. Ich habe zwei Hauptfragen. Der erste betrifft die allgemeine Idee der Clusterqualität. Soweit ich weiß, schlagen Kriterien wie der …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.