Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]

2
Funktionsauswahl für Clustering-Probleme
Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …



2
Clustering von verrauschten Daten oder mit Ausreißern
Ich habe verrauschte Daten von zwei Variablen wie diesen. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

1
Clustering Trägheitsformel in Scikit lernen
Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …

3
Cluster für k-means auswählen: der Fall 1 Cluster
Kennt jemand eine gute Methode, um festzustellen, ob Clustering mit kmeans überhaupt angemessen ist? Was ist, wenn Ihre Probe tatsächlich homogen ist? Ich weiß, dass so etwas wie ein Mischungsmodell (über mclust in R) Anpassungsstatistiken für den 1: k-Clusterfall liefert, aber es scheint, dass alle Techniken zur Bewertung von kmean …
9 r  clustering  k-means 


1
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
Suche nach künstlichen 2D-Daten zur Demonstration der Eigenschaften von Clustering-Algorithmen
Ich suche nach Datensätzen von zweidimensionalen Datenpunkten (jeder Datenpunkt ist ein Vektor mit zwei Werten (x, y)), die unterschiedlichen Verteilungen und Formen folgen. Code zum Generieren solcher Daten wäre ebenfalls hilfreich. Ich möchte sie verwenden, um die Leistung einiger Clustering-Algorithmen zu zeichnen / zu visualisieren. Hier sind einige Beispiele: sternförmige …



2
Muss eine Entfernung eine „Metrik“ sein, damit ein hierarchisches Clustering darauf gültig ist?
Nehmen wir an, wir definieren einen Abstand zwischen N Elementen , der keine Metrik ist. Basierend auf dieser Entfernung verwenden wir dann ein agglomeratives hierarchisches Clustering . Können wir jeden der bekannten Algorithmen (Einzel- / Maximal- / Durchschnittsverknüpfung usw.) verwenden, um aussagekräftige Ergebnisse zu erzielen? Oder anders ausgedrückt, was ist …

4
Clustering mit asymmetrischen Abstandsmaßen
Wie gruppieren Sie ein Feature mit einem asymmetrischen Abstandsmaß? Angenommen, Sie gruppieren ein Dataset mit Wochentagen als Feature. Die Entfernung von Montag bis Freitag entspricht nicht der Entfernung von Freitag bis Montag. Wie integrieren Sie dies in das Abstandsmaß des Clustering-Algorithmus?


3
Radfahren im k-means-Algorithmus
Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.