Als «k-means» getaggte Fragen

k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert

3
k-bedeutet vs k-bedeutet ++
Soweit ich weiß, wählt k-means die Anfangszentren zufällig aus. Da sie auf purem Glück basieren, können sie wirklich schlecht ausgewählt werden. Der K-means ++ Algorithmus versucht, dieses Problem zu lösen, indem er die Anfangszentren gleichmäßig verteilt. Garantieren die beiden Algorithmen die gleichen Ergebnisse? Oder es ist möglich, dass die schlecht …
10 k-means 


1
Clustering Trägheitsformel in Scikit lernen
Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …

1
Bestimmen Sie eine unbekannte Anzahl realer Standorte aus GPS-basierten Berichten
Ich arbeite an einer Software, die anhand mehrerer GPS-basierter Berichte reale Standorte (z. B. Geschwindigkeitskameras) ermitteln soll . Ein Benutzer fährt, wenn er einen Ort meldet, daher sind die Meldungen sehr ungenau. Um dieses Problem zu lösen, muss ich Berichte über denselben Standort gruppieren und einen Durchschnitt berechnen. Meine Frage …

3
Cluster für k-means auswählen: der Fall 1 Cluster
Kennt jemand eine gute Methode, um festzustellen, ob Clustering mit kmeans überhaupt angemessen ist? Was ist, wenn Ihre Probe tatsächlich homogen ist? Ich weiß, dass so etwas wie ein Mischungsmodell (über mclust in R) Anpassungsstatistiken für den 1: k-Clusterfall liefert, aber es scheint, dass alle Techniken zur Bewertung von kmean …
9 r  clustering  k-means 

1
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
Radfahren im k-means-Algorithmus
Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.


1
Ellbogenkriterien zur Bestimmung der Anzahl der Cluster
Es wird hier erwähnt , dass eine der Methoden zur Bestimmung der optimalen Anzahl von Clustern in einem Datensatz die "Ellbogenmethode" ist. Hier wird der Prozentsatz der Varianz als das Verhältnis der Varianz zwischen Gruppen zur Gesamtvarianz berechnet. Ich hatte Schwierigkeiten, diese Berechnung zu verstehen. Kann jemand erklären, wie der …


2
Annahme der gleichen Clustergröße beim Clustering
Ich frage mich: Gibt es beim Clustering von Daten mit einem allgemeinen Algorithmus eine Annahme über ungefähr gleiche Größen der Cluster? Zum Beispiel sollten in k-means, wie ich weiß, alle Cluster ca. gleiche Anzahl von Proben. Gilt das auch für andere Clustering-Algorithmen?

1
Vorteile von SVM als Werkzeug zur Ziffernerkennung
Ich bin ziemlich neu in der Ziffernerkennung und habe festgestellt, dass viele Tutorials die SVM-Klassifizierung verwenden, zum Beispiel: http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html Ich würde gerne wissen, ob es für dieses Tool (domänenspezifische) Vorteile gibt, verglichen mit z Deep Learning neuronale Netze Klassifizierung nach k-Mitteln Vielen Dank für jeden Kommentar. Klarstellung, warum SVM …

1
K bedeutet als Grenzfall des EM-Algorithmus für Gaußsche Gemische mit Kovarianzen bis
Mein Ziel ist es zu sehen, dass der K-Mittelwert-Algorithmus tatsächlich ein Erwartungsmaximierungsalgorithmus für Gaußsche Gemische ist, bei dem alle Komponenten eine Kovarianz im Grenzwert als .σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} Angenommen , wir haben einen Datensatz {x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\} von Beobachtungen von Zufallsvariablen XXX . Die Zielfunktion für M-Mittel ist gegeben …

3
Verwenden von k-means mit anderen Metriken
Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird. Kürzlich habe ich zwei Artikel gelesen, in denen die …

4
Clustering, das durch K-Mittel verursacht werden kann
Ich habe die folgende Frage als Testfrage für meine Prüfung erhalten und kann die Antwort einfach nicht verstehen. Ein Streudiagramm der auf die ersten beiden Hauptkomponenten projizierten Daten ist unten gezeigt. Wir möchten untersuchen, ob der Datensatz eine Gruppenstruktur enthält. Zu diesem Zweck haben wir den k-means-Algorithmus mit k = …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.