Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]



3
Methoden zur Initialisierung der K-Mittel-Clusterbildung
Ich interessiere mich für den aktuellen Stand der Technik bei der Auswahl von Ausgangssamen (Cluster-Zentren) für K-Mittel. Googeln führt zu zwei beliebten Optionen: zufällige Auswahl der Ausgangssamen und unter Verwendung der KMeans ++ - Auswahlmethode: Arthur & Vassilvitskii 2006 k-means ++: Die Vorteile einer sorgfältigen Aussaat Gibt es andere vielversprechende …

3
Mit welchen statistischen Methoden kann ich beliebte oder häufig verwendete Kombinationen kategorialer Variablen finden?
Ich mache eine Studie über den Gebrauch von Polydrogen. Ich habe einen Datensatz von 400 Drogenabhängigen, die jeweils die Drogen angegeben haben, die sie missbrauchen. Es gibt mehr als 10 Medikamente und daher große mögliche Kombinationen. Ich habe die meisten Drogen, die sie konsumieren, in binäre Variablen umkodiert (dh Heroin …

1
Grundlegendes zur Verwendung von Logarithmen im TF-IDF-Logarithmus
Ich habe gelesen: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Aber ich kann nicht genau verstehen, warum die Formel so konstruiert wurde, wie sie ist. Was ich tue Verstehe: iDF sollte auf einer bestimmten Ebene messen, wie häufig ein Begriff S in jedem der Dokumente vorkommt, wobei der Wert abnimmt, wenn der Begriff häufiger vorkommt. Aus …


1
Wie soll ich die GAP-Statistik interpretieren?
Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere. Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte. Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige …
10 clustering 


2
PyMC für nichtparametrisches Clustering: Der Dirichlet-Prozess zur Schätzung der Parameter der Gaußschen Mischung kann nicht geclustert werden
Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste, was ich über diese Methode weiß, stammt aus Videovorträgen …

3
So erhalten Sie das Konfidenzintervall für die Änderung des Populations-R-Quadrats
Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte Populationsvarianz für Modell 1 für Modell 2 . Die durch Modell …



1
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


1
Zur kophenetischen Korrelation für das Dendrogramm-Clustering
Betrachten Sie den Kontext eines Dendrogramm-Clusters. Nennen wir ursprüngliche Unterschiede die Abstände zwischen den Individuen. Nach der Erstellung des Dendrogramms definieren wir die kophenetische Unähnlichkeit zwischen zwei Individuen als den Abstand zwischen den Clustern, zu denen diese Individuen gehören. Einige Leute denken, dass die Korrelation zwischen den ursprünglichen Unähnlichkeiten und …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.