Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]


5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Können Sie verschiedene Clustering-Methoden in einem Datensatz ohne fundamentale Wahrheit durch Kreuzvalidierung vergleichen?
Derzeit versuche ich, einen Textdokumentdatensatz zu analysieren, der keine fundamentale Wahrheit enthält. Mir wurde gesagt, dass Sie die k-fache Kreuzvalidierung verwenden können, um verschiedene Clustering-Methoden zu vergleichen. Die Beispiele, die ich in der Vergangenheit gesehen habe, verwenden jedoch eine Grundwahrheit. Gibt es eine Möglichkeit, k-fach Mittel für diesen Datensatz zu …

5
Kann ich PCA zur Variablenauswahl für die Clusteranalyse verwenden?
Ich muss die Anzahl der Variablen reduzieren, um eine Clusteranalyse durchzuführen. Meine Variablen sind stark korreliert, daher habe ich mir überlegt, eine Faktoranalyse-PCA (Principal Component Analysis) durchzuführen. Wenn ich jedoch die resultierenden Bewertungen verwende, sind meine Cluster nicht ganz korrekt (im Vergleich zu früheren Klassifizierungen in der Literatur). Frage: Kann …

3
Clustering Wahrscheinlichkeitsverteilungen - Methoden & Metriken?
Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz variiert) Gesetz (1 bis 0, ungefähr).) Ich versuche, einen …

2
Clustering räumlicher Daten in R
Ich habe eine Reihe von monatlichen SST-Daten (Sea Surface Temperature) und möchte eine Cluster-Methode anwenden, um Regionen mit ähnlichen SST-Mustern zu erkennen. Ich habe eine Reihe von monatlichen Datendateien, die von 1985 bis 2009 laufen, und möchte als ersten Schritt das Clustering auf jeden Monat anwenden. Jede Datei enthält Rasterdaten …
12 r  clustering  spatial 


2
Interpretation des Ergebnisses der k-Mittel-Clusterbildung in R.
Ich habe die kmeansAnweisung von R verwendet, um den k-means-Algorithmus für Andersons Iris-Datensatz durchzuführen. Ich habe eine Frage zu einigen Parametern, die ich erhalten habe. Die Ergebnisse sind: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Wofür steht in diesem Fall "Cluster"? Es ist der Mittelwert der …

1
Robuste Cluster-Methode für gemischte Daten in R.
Ich möchte einen kleinen Datensatz gruppieren (64 Beobachtungen von 4 Intervallvariablen und einer einzelnen kategorialen Drei-Faktor-Variablen). Jetzt bin ich ziemlich neu in der Clusteranalyse, aber ich bin mir bewusst, dass seit den Tagen, als hierarchisches Clustering oder k-means die einzigen verfügbaren Optionen waren, erhebliche Fortschritte erzielt wurden. Insbesondere scheinen neue …

3
Wie kann ich testen, ob mein Clustering von Binärdaten signifikant ist?
Ich mache Warenkorbanalysen. Mein Datensatz besteht aus Transaktionsvektoren mit den Artikeln, die die Produkte gekauft haben. Wenn ich k-means auf die Transaktionen anwende, erhalte ich immer ein Ergebnis. Eine Zufallsmatrix würde wahrscheinlich auch einige Cluster zeigen. Gibt es eine Möglichkeit zu testen, ob die Clusterbildung, die ich finde, signifikant ist, …


1
Was tun, wenn die Probenkovarianzmatrix nicht invertierbar ist?
Ich arbeite an einigen Clustering-Techniken, bei denen ich für einen bestimmten Cluster von d-dimensionalen Vektoren eine multivariate Normalverteilung annehme und den d-dimensionalen Mittelwertvektor der Stichprobe und die Kovarianzmatrix der Stichprobe berechne. Wenn ich dann versuche zu entscheiden, ob ein neuer, unsichtbarer, d-dimensionaler Vektor zu diesem Cluster gehört, überprüfe ich seine …


1
Mclust Modellauswahl
Das R-Paket mclustverwendet BIC als Kriterium für die Auswahl des Clustermodells. Nach meinem Verständnis sollte ein Modell mit dem niedrigsten BIC gegenüber anderen Modellen ausgewählt werden (wenn Sie sich nur für BIC interessieren). Wenn jedoch alle BIC-Werte negativ sind, Mclustwird standardmäßig das Modell mit dem höchsten BIC-Wert verwendet. Mein allgemeines …

3
Funktioniert Newmans Netzwerkmodularität für signierte, gewichtete Diagramme?
Die Modularität eines Diagramms wird auf seiner Wikipedia-Seite definiert . In einem anderen Beitrag erklärte jemand, dass Modularität für gewichtete Netzwerke leicht berechnet (und maximiert) werden kann, da die Adjazenzmatrix AijAijA_{ij} auch wertvolle Bindungen enthalten kann. Ich würde jedoch gerne wissen, ob dies auch mit vorzeichenbehafteten, geschätzten Kanten funktioniert, die …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.