Als «k-means» getaggte Fragen

k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert

1
Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen
Ich würde gerne verstehen, was der Hauptunterschied in der Implementierung zwischen Standard- und sphärischen K-Mittel-Clustering-Algorithmen ist. In jedem Schritt berechnet k-means die Abstände zwischen Elementvektoren und Cluster-Schwerpunkten und ordnet das Dokument diesem Cluster zu, dessen Schwerpunkt der nächste ist. Dann werden alle Zentroide neu berechnet. Im sphärischen k-Mittel sind alle …

2
Wie werden beim Clustering sowohl binäre als auch kontinuierliche Variablen zusammen verwendet?
Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …


3
Bestimmen Sie verschiedene Cluster von 1d-Daten aus der Datenbank
Ich habe eine Datenbanktabelle von Datenübertragungen zwischen verschiedenen Knoten. Dies ist eine riesige Datenbank (mit fast 40 Millionen Überweisungen). Eines der Attribute ist die Anzahl der Bytes (nBytes), die zwischen 0 Byte und 2 Terabytes übertragen werden. Ich möchte die nbytes so gruppieren, dass gegebene k Cluster einige x1 Übertragungen …

8
Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …

2
Wenn k-means Clustering eine Form der Gaußschen Mischungsmodellierung ist, kann es verwendet werden, wenn die Daten nicht normal sind?
Ich lese Bishop über den EM-Algorithmus für GMM und die Beziehung zwischen GMM und k-means. In diesem Buch heißt es, dass k-means eine schwer zuzuordnende Version von GMM ist. Ich frage mich, ob dies bedeutet, dass ich k-means nicht verwenden kann (oder zumindest nicht verwenden kann), wenn die Daten, die …

4
Clustering einer Korrelationsmatrix
Ich habe eine Korrelationsmatrix, die angibt, wie jedes Objekt mit dem anderen Objekt korreliert ist. Daher habe ich für N Elemente bereits eine N * N Korrelationsmatrix. Wie gruppiere ich mit dieser Korrelationsmatrix die N Elemente in M ​​Fächern, damit ich sagen kann, dass sich die Nk Elemente im k-ten …

2
Konvergenznachweis von k-means
Für eine Aufgabe wurde ich gebeten, einen Beweis zu liefern, dass k-means in einer endlichen Anzahl von Schritten konvergiert. Das habe ich geschrieben: Im Folgenden ist eine Sammlung aller Cluster-Zentren. Definiere eine “Energie” -Funktion Die Energiefunktion ist nicht negativ. Wir sehen, dass die Schritte (2) und (3) des Algorithmus beide …

4
Wie kann man die Nachteile von Hierarchical Clustering verstehen?
Kann jemand die Vor- und Nachteile von Hierarchical Clustering erklären? Hat hierarchisches Clustering die gleichen Nachteile wie K? Was sind die Vorteile von Hierarchical Clustering gegenüber K? Wann sollten wir K-Mittel anstelle von Hierarchical Clustering verwenden und umgekehrt? Antworten auf diesen Beitrag erklären die Nachteile von k sehr gut. Wie …


3
Warum deutet die Lückenstatistik für k-means auf einen Cluster hin, obwohl es offensichtlich zwei davon gibt?
Ich verwende K-means, um meine Daten zu gruppieren, und suche nach einer Möglichkeit, eine "optimale" Clusternummer vorzuschlagen. Gap-Statistiken scheinen ein gängiger Weg zu sein, um eine gute Clusternummer zu finden. Aus irgendeinem Grund gibt es 1 als optimale Clusternummer zurück, aber wenn ich mir die Daten anschaue, ist es offensichtlich, …



4
Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Wirkt sich der Fluch der Dimensionalität auf einige Modelle stärker aus als auf andere?
Die Stellen, die ich über den Fluch der Dimensionalität gelesen habe, erklären ihn hauptsächlich in Verbindung mit kNN und linearen Modellen im Allgemeinen. Ich sehe regelmäßig Spitzenreiter in Kaggle, die Tausende von Funktionen in einem Datensatz verwenden, der kaum 100.000 Datenpunkte enthält. Sie verwenden unter anderem hauptsächlich Boosted-Bäume und NN. …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.