Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]

3
Platzsparendes Clustering
Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …

4
Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?
Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …

2
Erste Schritte mit Biclustering
Ich habe gelegentlich im Internet über Bikluster recherchiert. (Ich habe den Wiki-Artikel mehrmals gelesen.) Bisher scheint es nur wenige Definitionen oder Standardterminologien zu geben. Ich habe mich gefragt, ob es Standardpapiere oder -bücher gibt, die jeder lesen sollte, der sich für Algorithmen zum Auffinden von Biklustern interessiert. Kann man sagen, …

2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 


1
Ellbogenkriterien zur Bestimmung der Anzahl der Cluster
Es wird hier erwähnt , dass eine der Methoden zur Bestimmung der optimalen Anzahl von Clustern in einem Datensatz die "Ellbogenmethode" ist. Hier wird der Prozentsatz der Varianz als das Verhältnis der Varianz zwischen Gruppen zur Gesamtvarianz berechnet. Ich hatte Schwierigkeiten, diese Berechnung zu verstehen. Kann jemand erklären, wie der …

2
Annahme der gleichen Clustergröße beim Clustering
Ich frage mich: Gibt es beim Clustering von Daten mit einem allgemeinen Algorithmus eine Annahme über ungefähr gleiche Größen der Cluster? Zum Beispiel sollten in k-means, wie ich weiß, alle Cluster ca. gleiche Anzahl von Proben. Gilt das auch für andere Clustering-Algorithmen?

3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

4
Graph-Clustering-Algorithmen, die negative Gewichte berücksichtigen
Ich habe eine Diagramminstanz mit gewichteten gerichteten Kanten, deren Werte im Bereich [-1,1] liegen können. Ich muss Clustering in diesem Diagramm durchführen, um Gruppen herauszufinden, in denen Eckpunkte stärker korreliert sind. Ich habe nach mehreren Algorithmen gesucht, die auf Clustering oder Community-Erkennungsgraphen basieren, aber die meisten funktionieren aufgrund der negativen …


1
Effiziente Methode zur Berechnung der Abstände zwischen Schwerpunkten aus der Entfernungsmatrix
Lassen Sie uns eine quadratische symmetrische Matrix quadratischer euklidischer Abstände zwischen Punkten und einem Vektor mit einer Länge von , die die Cluster- oder Gruppenzugehörigkeit ( Cluster) der Punkte anzeigt ; Ein Cluster kann aus Punkt bestehen.D.D.\bf Dnnnnnnkkk≥ 1≥1\ge1 Was ist hier die effizienteste oder wirklich effizienteste (in Bezug auf …

3
Der beste Weg zum Clustering einer Adjazenzmatrix
Es fiel mir schwer, resultierende Cluster einer Adjazenzmatrix zu interpretieren. Ich habe 200 relativ große Matrizen, die Themen darstellen, die Teilkorrelationen (z-Scores) von Zeitreihen (neuronale Daten) enthalten. Ziel ist es, diese 210 Matrizen zu gruppieren und potenzielle unentdeckte Gemeinschaften zu erkennen. Also habe ich weitere Teilkorrelationsberechnungen durchgeführt, die zu einer …

3
Verwenden von k-means mit anderen Metriken
Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird. Kürzlich habe ich zwei Artikel gelesen, in denen die …


2
Clustering von Daten mit einer Mischung aus kontinuierlichen und kategorialen Variablen
Ich habe Daten, die einen Aspekt des menschlichen Verhaltens darstellen. Ich möchte es (unbeaufsichtigt) in irgendeine Art von Verhaltensprofilen gruppieren. Jetzt sind einige meiner Variablen kategorisch (mit 2 oder mehr Kategorien) und einige sind kontinuierlich (die meisten sind Prozentsätze). Einige Variablen sind noch komplexer, da eine Kategorie weiter kontinuierlich ist …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.