k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert
Ich würde gerne verstehen, was der Hauptunterschied in der Implementierung zwischen Standard- und sphärischen K-Mittel-Clustering-Algorithmen ist. In jedem Schritt berechnet k-means die Abstände zwischen Elementvektoren und Cluster-Schwerpunkten und ordnet das Dokument diesem Cluster zu, dessen Schwerpunkt der nächste ist. Dann werden alle Zentroide neu berechnet. Im sphärischen k-Mittel sind alle …
Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …
Ich habe einige Punkte in und möchte die Punkte so gruppieren, dass:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Jeder Cluster enthält eine gleiche Anzahl von Elementen von . (Angenommen, die Anzahl der Cluster teilt .)XXXnnn Jeder Cluster ist in gewissem Sinne "räumlich kohäsiv", wie die Cluster aus Mitteln.kkk Es …
Ich habe eine Datenbanktabelle von Datenübertragungen zwischen verschiedenen Knoten. Dies ist eine riesige Datenbank (mit fast 40 Millionen Überweisungen). Eines der Attribute ist die Anzahl der Bytes (nBytes), die zwischen 0 Byte und 2 Terabytes übertragen werden. Ich möchte die nbytes so gruppieren, dass gegebene k Cluster einige x1 Übertragungen …
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …
Ich lese Bishop über den EM-Algorithmus für GMM und die Beziehung zwischen GMM und k-means. In diesem Buch heißt es, dass k-means eine schwer zuzuordnende Version von GMM ist. Ich frage mich, ob dies bedeutet, dass ich k-means nicht verwenden kann (oder zumindest nicht verwenden kann), wenn die Daten, die …
Ich habe eine Korrelationsmatrix, die angibt, wie jedes Objekt mit dem anderen Objekt korreliert ist. Daher habe ich für N Elemente bereits eine N * N Korrelationsmatrix. Wie gruppiere ich mit dieser Korrelationsmatrix die N Elemente in M Fächern, damit ich sagen kann, dass sich die Nk Elemente im k-ten …
Für eine Aufgabe wurde ich gebeten, einen Beweis zu liefern, dass k-means in einer endlichen Anzahl von Schritten konvergiert. Das habe ich geschrieben: Im Folgenden ist eine Sammlung aller Cluster-Zentren. Definiere eine “Energie” -Funktion Die Energiefunktion ist nicht negativ. Wir sehen, dass die Schritte (2) und (3) des Algorithmus beide …
Kann jemand die Vor- und Nachteile von Hierarchical Clustering erklären? Hat hierarchisches Clustering die gleichen Nachteile wie K? Was sind die Vorteile von Hierarchical Clustering gegenüber K? Wann sollten wir K-Mittel anstelle von Hierarchical Clustering verwenden und umgekehrt? Antworten auf diesen Beitrag erklären die Nachteile von k sehr gut. Wie …
Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten sind?
Ich verwende K-means, um meine Daten zu gruppieren, und suche nach einer Möglichkeit, eine "optimale" Clusternummer vorzuschlagen. Gap-Statistiken scheinen ein gängiger Weg zu sein, um eine gute Clusternummer zu finden. Aus irgendeinem Grund gibt es 1 als optimale Clusternummer zurück, aber wenn ich mir die Daten anschaue, ist es offensichtlich, …
Ich habe einen Datensatz mit 16 Variablen und möchte nach der Gruppierung nach km die beiden Gruppen zeichnen. Welche Diagramme schlagen Sie vor, um die beiden Cluster visuell darzustellen?
Ich habe gelesen, dass der k-means-Algorithmus nur zu einem lokalen Minimum und nicht zu einem globalen Minimum konvergiert. Warum ist das? Ich kann mir logischerweise vorstellen, wie sich die Initialisierung auf das endgültige Clustering auswirken könnte, und es besteht die Möglichkeit eines suboptimalen Clusterings, aber ich habe nichts gefunden, was …
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
Die Stellen, die ich über den Fluch der Dimensionalität gelesen habe, erklären ihn hauptsächlich in Verbindung mit kNN und linearen Modellen im Allgemeinen. Ich sehe regelmäßig Spitzenreiter in Kaggle, die Tausende von Funktionen in einem Datensatz verwenden, der kaum 100.000 Datenpunkte enthält. Sie verwenden unter anderem hauptsächlich Boosted-Bäume und NN. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.