Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]

5
Wie man die Nachteile von K-means versteht
K-means ist eine weit verbreitete Methode in der Clusteranalyse. Nach meinem Verständnis erfordert diese Methode KEINE Annahmen, dh, Sie geben mir einen Datensatz und eine vorgegebene Anzahl von Clustern, k, und ich wende nur diesen Algorithmus an, der die Summe der Fehlerquadrate (SSE) im Quadrat des Clusters minimiert Error. K-means …

8
Warum ist der euklidische Abstand in hohen Dimensionen keine gute Metrik?
Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie …


6
Wie können Sie feststellen, ob die Daten so „geclustert“ sind, dass Clustering-Algorithmen aussagekräftige Ergebnisse liefern?
Woher wissen Sie, ob Ihre (hochdimensionalen) Daten genügend Clustering aufweisen, sodass Ergebnisse von kmeans oder anderen Clustering-Algorithmen tatsächlich von Bedeutung sind? Wie stark sollte die Varianz innerhalb eines Clusters reduziert werden, damit die tatsächlichen Cluster-Ergebnisse aussagekräftig (und nicht unecht) sind? Sollte Clustering sichtbar sein, wenn eine dimensionsreduzierte Form der Daten …

6
Clustering auf der Ausgabe von t-SNE
Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar PCs gruppieren, …

3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Auswählen einer Clustering-Methode
Wenn Sie die Clusteranalyse für einen Datensatz verwenden, um ähnliche Fälle zu gruppieren, müssen Sie aus einer Vielzahl von Clustermethoden und Entfernungsmaßen auswählen. Manchmal kann eine Wahl die andere beeinflussen, aber es gibt viele mögliche Kombinationen von Methoden. Hat jemand irgendwelche Empfehlungen, wie man unter den verschiedenen Clustering-Algorithmen / Methoden …

7
Euklidischer Abstand ist normalerweise nicht gut für spärliche Daten?
Ich habe irgendwo gesehen, dass klassische Entfernungen (wie die euklidische Entfernung) schwach diskriminierend werden, wenn wir mehrdimensionale und spärliche Daten haben. Warum? Haben Sie ein Beispiel für zwei spärliche Datenvektoren, bei denen die euklidische Distanz nicht gut funktioniert? In diesem Fall welche Ähnlichkeit sollten wir verwenden?

6
Warum verwendet der k-means Clustering-Algorithmus nur die euklidische Distanzmetrik?
Gibt es einen bestimmten Zweck in Bezug auf Effizienz oder Funktionalität, warum der k-means-Algorithmus zum Beispiel keine Cosinus- (Dis-) Ähnlichkeit als Distanzmetrik verwendet, sondern nur die euklidische Norm verwenden kann? Wird die K-means-Methode im Allgemeinen eingehalten und korrekt sein, wenn andere Abstände als Euklidisch berücksichtigt oder verwendet werden? [Ergänzung von …

6
Wo kann man ein Dendrogramm schneiden?
Hierarchisches Clustering kann durch ein Dendrogramm dargestellt werden. Wenn Sie ein Dendrogramm auf einer bestimmten Ebene ausschneiden, erhalten Sie eine Reihe von Clustern. Wenn Sie auf einer anderen Ebene schneiden, erhalten Sie eine andere Gruppe von Clustern. Wie würden Sie auswählen, wo das Dendrogramm geschnitten werden soll? Gibt es etwas, …

5
Welche Beziehung besteht zwischen k-means Clustering und PCA?
Es ist gängige Praxis, PCA (Principal Component Analysis) vor einem Clustering-Algorithmus (z. B. k-means) anzuwenden. Es wird angenommen, dass es die Clustering-Ergebnisse in der Praxis verbessert (Rauschunterdrückung). Ich bin jedoch an einer vergleichenden und eingehenden Untersuchung der Beziehung zwischen PCA und k-means interessiert. Zum Beispiel Chris Ding und Xiaofeng Sich, …

10
Wie bestimme ich die richtige Anzahl von Clustern?
Wir finden die Cluster-Zentren und weisen k verschiedenen Cluster-Klassen Punkte zu. Dies ist ein sehr bekannter Algorithmus, der fast in jedem maschinellen Lernpaket im Netz zu finden ist. Aber der fehlende und wichtigste Teil meiner Meinung nach ist die Wahl eines korrekten k. Was ist der beste Wert dafür? Und …

10
Clustering mit einer Distanzmatrix
Ich habe eine (symmetrische) Matrix M, die den Abstand zwischen jedem Knotenpaar darstellt. Zum Beispiel, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 …
52 clustering 

2
Wie kann ein künstliches neuronales Netzwerk ANN für unbeaufsichtigtes Clustering verwendet werden?
Ich verstehe, wie artificial neural network (ANN)man mit Backpropogation überwacht trainieren kann, um die Anpassung zu verbessern, indem man den Fehler in den Vorhersagen verringert. Ich habe gehört, dass ein ANN für unbeaufsichtigtes Lernen verwendet werden kann, aber wie kann dies ohne irgendeine Kostenfunktion durchgeführt werden, um die Optimierungsstufen zu …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.