Als «k-means» getaggte Fragen

k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert

2
k-bedeutet vs k-Median?
Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche verwenden?

2
Warum wird k-means nicht mit Gradientenabstieg optimiert?
Ich weiß, dass k-means normalerweise mit Expectation Maximization optimiert wird . Wir könnten jedoch die Verlustfunktion genauso optimieren wie alle anderen! Ich habe einige Artikel gefunden, die tatsächlich eine stochastische Gradientenabnahme für großräumige k-Mittelwerte verwenden, aber ich konnte meine Frage nicht beantworten. Weiß jemand, warum das so ist? Liegt es …

3
Warum verwenden wir k-means anstelle anderer Algorithmen?
Ich habe über k-means recherchiert und das habe ich: k-means ist einer der einfachsten Algorithmen, der unbeaufsichtigte Lernmethoden verwendet, um bekannte Clustering-Probleme zu lösen. Es funktioniert sehr gut mit großen Datenmengen. Es gibt jedoch auch Nachteile von K-Mitteln, die sind: Starke Empfindlichkeit gegenüber Ausreißern und Lärm Funktioniert nicht gut mit …


3
Angemessenheit der ANOVA nach k-Means-Cluster-Analyse
Die Meldung nach der ANOVA-Tabelle nach der K-Mittelwert-Analyse zeigt, dass Signifikanzniveaus nicht als Test gleicher Mittelwerte betrachtet werden sollten, da die Cluster-Lösung basierend auf dem euklidischen Abstand abgeleitet wurde, um den Abstand zu maximieren. Welchen Test sollte ich verwenden, um zu zeigen, ob sich die Mittelwerte der Clustervariablen zwischen den …
14 anova  k-means 



5
Wie kann ich Distanz (Euklidisch) in Ähnlichkeit umwandeln?
Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

4
Initialisierung von K-Means-Zentren durch zufällige Unterproben des Datensatzes?
Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren? Angenommen, ich möchte 5 clusters. Ich nehme 5 random samplesvon sagen wir, size=20%des ursprünglichen Datensatzes. Könnte ich dann den Mittelwert jeder dieser 5 Zufallsstichproben als meine 5 anfänglichen Cluster-Zentren verwenden? Ich …


2
Verwenden von BIC zum Schätzen der Anzahl von k in KMEANS
Ich versuche derzeit, den BIC für meinen Spielzeugdatensatz (ofc iris (:)) zu berechnen. Ich möchte die hier gezeigten Ergebnisse reproduzieren (Abb. 5). Dieses Papier ist auch meine Quelle für die BIC-Formeln. Ich habe 2 Probleme damit: Notation: nichnichn_i = Anzahl der Elemente in Clusterichichi CichCichC_i = Mittelkoordinaten des Clustersichichi xjxjx_j …

3
Muss ich korrelierte / kollineare Variablen löschen, bevor ich kmeans laufen lasse?
Ich laufe Kilometer, um Kundencluster zu identifizieren. Ich habe ungefähr 100 Variablen, um Cluster zu identifizieren. Jede dieser Variablen gibt den Prozentsatz der Ausgaben eines Kunden für eine Kategorie an. Wenn ich also 100 Kategorien habe, habe ich diese 100 Variablen, sodass die Summe dieser Variablen für jeden Kunden 100% …

1
k-bedeutet || aka Scalable K-Means ++
Bahman Bahmani et al. Einführung von k-means ||, einer schnelleren Version von k-means ++. Dieser Algorithmus stammt von Seite 4 ihrer Veröffentlichung Bahmani, B., Moseley, B., Vattani, A., Kumar, R. und Vassilvitskii, S. (2012). Skalierbares k-means ++. Verfahren der VLDB-Stiftung , 5 (7), 622-633. Leider verstehe ich diese ausgefallenen griechischen …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
Clustering Wahrscheinlichkeitsverteilungen - Methoden & Metriken?
Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz variiert) Gesetz (1 bis 0, ungefähr).) Ich versuche, einen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.