k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert
Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche verwenden?
Ich weiß, dass k-means normalerweise mit Expectation Maximization optimiert wird . Wir könnten jedoch die Verlustfunktion genauso optimieren wie alle anderen! Ich habe einige Artikel gefunden, die tatsächlich eine stochastische Gradientenabnahme für großräumige k-Mittelwerte verwenden, aber ich konnte meine Frage nicht beantworten. Weiß jemand, warum das so ist? Liegt es …
Ich habe über k-means recherchiert und das habe ich: k-means ist einer der einfachsten Algorithmen, der unbeaufsichtigte Lernmethoden verwendet, um bekannte Clustering-Probleme zu lösen. Es funktioniert sehr gut mit großen Datenmengen. Es gibt jedoch auch Nachteile von K-Mitteln, die sind: Starke Empfindlichkeit gegenüber Ausreißern und Lärm Funktioniert nicht gut mit …
Es scheint, dass für K-means und andere verwandte Algorithmen das Clustering auf der Berechnung des Abstands zwischen Punkten basiert. Gibt es eine, die ohne funktioniert?
Die Meldung nach der ANOVA-Tabelle nach der K-Mittelwert-Analyse zeigt, dass Signifikanzniveaus nicht als Test gleicher Mittelwerte betrachtet werden sollten, da die Cluster-Lösung basierend auf dem euklidischen Abstand abgeleitet wurde, um den Abstand zu maximieren. Welchen Test sollte ich verwenden, um zu zeigen, ob sich die Mittelwerte der Clustervariablen zwischen den …
Ich habe zwei Teile eines mehrdimensionalen Datensatzes, nennen wir sie trainund test. Und ich möchte ein Modell auf der Grundlage des Zugdatensatzes erstellen und es dann anhand des Testdatensatzes validieren. Die Anzahl der Cluster ist bekannt. Ich habe versucht, k-means Clustering in R anzuwenden, und ich habe ein Objekt erhalten, …
Kann mich jemand auf eine k-means-Implementierung hinweisen (besser in matlab), die die Distanzmatrix als Eingabe verwenden kann? Die Standard-Matlab-Implementierung benötigt die Beobachtungsmatrix als Eingabe und es ist nicht möglich, das Ähnlichkeitsmaß benutzerdefiniert zu ändern.
Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]
Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren? Angenommen, ich möchte 5 clusters. Ich nehme 5 random samplesvon sagen wir, size=20%des ursprünglichen Datensatzes. Könnte ich dann den Mittelwert jeder dieser 5 Zufallsstichproben als meine 5 anfänglichen Cluster-Zentren verwenden? Ich …
Ich habe gelernt, dass Sie bei der Auswahl einer Reihe von Clustern nach einem Ellbogenpunkt für verschiedene Werte von K suchen sollten. Ich habe die Werte von withinss für Werte von k von 1 bis 10 geplottet, sehe aber kein klares Ellbogen. Was machst du in so einem Fall?
Ich versuche derzeit, den BIC für meinen Spielzeugdatensatz (ofc iris (:)) zu berechnen. Ich möchte die hier gezeigten Ergebnisse reproduzieren (Abb. 5). Dieses Papier ist auch meine Quelle für die BIC-Formeln. Ich habe 2 Probleme damit: Notation: nichnichn_i = Anzahl der Elemente in Clusterichichi CichCichC_i = Mittelkoordinaten des Clustersichichi xjxjx_j …
Ich laufe Kilometer, um Kundencluster zu identifizieren. Ich habe ungefähr 100 Variablen, um Cluster zu identifizieren. Jede dieser Variablen gibt den Prozentsatz der Ausgaben eines Kunden für eine Kategorie an. Wenn ich also 100 Kategorien habe, habe ich diese 100 Variablen, sodass die Summe dieser Variablen für jeden Kunden 100% …
Bahman Bahmani et al. Einführung von k-means ||, einer schnelleren Version von k-means ++. Dieser Algorithmus stammt von Seite 4 ihrer Veröffentlichung Bahmani, B., Moseley, B., Vattani, A., Kumar, R. und Vassilvitskii, S. (2012). Skalierbares k-means ++. Verfahren der VLDB-Stiftung , 5 (7), 622-633. Leider verstehe ich diese ausgefallenen griechischen …
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz variiert) Gesetz (1 bis 0, ungefähr).) Ich versuche, einen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.