k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert
Soweit ich weiß, wählt k-means die Anfangszentren zufällig aus. Da sie auf purem Glück basieren, können sie wirklich schlecht ausgewählt werden. Der K-means ++ Algorithmus versucht, dieses Problem zu lösen, indem er die Anfangszentren gleichmäßig verteilt. Garantieren die beiden Algorithmen die gleichen Ergebnisse? Oder es ist möglich, dass die schlecht …
Ich nehme Dummy-Daten der Temperatur im Vergleich zu Eisverkäufen und kategorisiere sie mit K-Mitteln (n Cluster = 2), um 2 Kategorien zu unterscheiden (total Dummy). Jetzt mache ich eine Hauptkomponentenanalyse dieser Daten und mein Ziel ist es zu verstehen, was ich sehe. Ich weiß, dass das PCA-Ziel darin besteht, die …
Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …
Ich arbeite an einer Software, die anhand mehrerer GPS-basierter Berichte reale Standorte (z. B. Geschwindigkeitskameras) ermitteln soll . Ein Benutzer fährt, wenn er einen Ort meldet, daher sind die Meldungen sehr ungenau. Um dieses Problem zu lösen, muss ich Berichte über denselben Standort gruppieren und einen Durchschnitt berechnen. Meine Frage …
Kennt jemand eine gute Methode, um festzustellen, ob Clustering mit kmeans überhaupt angemessen ist? Was ist, wenn Ihre Probe tatsächlich homogen ist? Ich weiß, dass so etwas wie ein Mischungsmodell (über mclust in R) Anpassungsstatistiken für den 1: k-Clusterfall liefert, aber es scheint, dass alle Techniken zur Bewertung von kmean …
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.
Ich frage mich, ob es eine gute Möglichkeit gibt, das Clustering-Kriterium basierend auf der BIC-Formel für eine k-Mittelwert-Ausgabe in R zu berechnen. Ich bin etwas verwirrt darüber, wie ich diesen BIC berechnen soll, damit ich ihn mit anderen Clustering-Modellen vergleichen kann. Derzeit verwende ich die Implementierung des Statistikpakets von k-means.
Es wird hier erwähnt , dass eine der Methoden zur Bestimmung der optimalen Anzahl von Clustern in einem Datensatz die "Ellbogenmethode" ist. Hier wird der Prozentsatz der Varianz als das Verhältnis der Varianz zwischen Gruppen zur Gesamtvarianz berechnet. Ich hatte Schwierigkeiten, diese Berechnung zu verstehen. Kann jemand erklären, wie der …
Ich habe viele Artikel gelesen, in denen k-means mit vielen Datensätzen getestet wird, die normalerweise nicht wie der Iris-Datensatz verteilt sind, und um gute Ergebnisse zu erzielen. Da ich verstehe, dass k-means für normalverteilte Daten ist, warum wird k-means für nicht normalverteilte Daten verwendet? In der folgenden Veröffentlichung wurden beispielsweise …
Ich frage mich: Gibt es beim Clustering von Daten mit einem allgemeinen Algorithmus eine Annahme über ungefähr gleiche Größen der Cluster? Zum Beispiel sollten in k-means, wie ich weiß, alle Cluster ca. gleiche Anzahl von Proben. Gilt das auch für andere Clustering-Algorithmen?
Ich bin ziemlich neu in der Ziffernerkennung und habe festgestellt, dass viele Tutorials die SVM-Klassifizierung verwenden, zum Beispiel: http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html Ich würde gerne wissen, ob es für dieses Tool (domänenspezifische) Vorteile gibt, verglichen mit z Deep Learning neuronale Netze Klassifizierung nach k-Mitteln Vielen Dank für jeden Kommentar. Klarstellung, warum SVM …
Mein Ziel ist es zu sehen, dass der K-Mittelwert-Algorithmus tatsächlich ein Erwartungsmaximierungsalgorithmus für Gaußsche Gemische ist, bei dem alle Komponenten eine Kovarianz im Grenzwert als .σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} Angenommen , wir haben einen Datensatz {x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\} von Beobachtungen von Zufallsvariablen XXX . Die Zielfunktion für M-Mittel ist gegeben …
Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird. Kürzlich habe ich zwei Artikel gelesen, in denen die …
Ich habe die folgende Frage als Testfrage für meine Prüfung erhalten und kann die Antwort einfach nicht verstehen. Ein Streudiagramm der auf die ersten beiden Hauptkomponenten projizierten Daten ist unten gezeigt. Wir möchten untersuchen, ob der Datensatz eine Gruppenstruktur enthält. Zu diesem Zweck haben wir den k-means-Algorithmus mit k = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.