Statistiken und Big Data clustering

4

Ein Dirichlet-Prozessmodell verstehen und implementieren

Ich versuche, einen Dirichlet-Prozess zu implementieren und zu lernen, um meine Daten zu gruppieren (oder während die Leute beim maschinellen Lernen sprechen, schätzen Sie die Dichte). Ich habe viel Papier zu diesem Thema gelesen und bin irgendwie auf die Idee gekommen. Aber ich bin immer noch verwirrt; Hier sind eine …

11 machine-learning clustering dirichlet-process

1

Wie gruppiere ich automatisch eine U-Matrix?

Nach dem Training einer selbstorganisierenden Karte kann man die U-Matrix berechnen . Es gibt einige Tools , um es manuell zu visualisieren und Cluster zu identifizieren, aber ich frage mich, ob es einen Algorithmus gibt, der diesen Prozess automatisch ausführt (dh keinen Menschen, der die Figur betrachtet, um die Cluster …

10 clustering image-processing self-organizing-maps

3

Methoden zur Initialisierung der K-Mittel-Clusterbildung

Ich interessiere mich für den aktuellen Stand der Technik bei der Auswahl von Ausgangssamen (Cluster-Zentren) für K-Mittel. Googeln führt zu zwei beliebten Optionen: zufällige Auswahl der Ausgangssamen und unter Verwendung der KMeans ++ - Auswahlmethode: Arthur & Vassilvitskii 2006 k-means ++: Die Vorteile einer sorgfältigen Aussaat Gibt es andere vielversprechende …

10 clustering k-means

3

Mit welchen statistischen Methoden kann ich beliebte oder häufig verwendete Kombinationen kategorialer Variablen finden?

Ich mache eine Studie über den Gebrauch von Polydrogen. Ich habe einen Datensatz von 400 Drogenabhängigen, die jeweils die Drogen angegeben haben, die sie missbrauchen. Es gibt mehr als 10 Medikamente und daher große mögliche Kombinationen. Ich habe die meisten Drogen, die sie konsumieren, in binäre Variablen umkodiert (dh Heroin …

10 hypothesis-testing clustering combinatorics association-measure association-rules

1

Grundlegendes zur Verwendung von Logarithmen im TF-IDF-Logarithmus

Ich habe gelesen: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Aber ich kann nicht genau verstehen, warum die Formel so konstruiert wurde, wie sie ist. Was ich tue Verstehe: iDF sollte auf einer bestimmten Ebene messen, wie häufig ein Begriff S in jedem der Dokumente vorkommt, wobei der Wert abnimmt, wenn der Begriff häufiger vorkommt. Aus …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Ansatz und Beispiel für das Clustering von Graphen in „R“

Ich möchte Knoten in einem Diagramm mithilfe von Diagrammclustern in 'r' gruppieren / zusammenführen. Hier ist eine erstaunlich spielerische Variante meines Problems. Es gibt zwei "Cluster" Es gibt eine "Brücke", die die Cluster verbindet Hier ist ein Kandidatennetzwerk: Wenn ich mir die Verbindungsentfernung ansehe, die "Hopcount", wenn Sie so wollen, …

10 r clustering data-visualization numerics

1

Wie soll ich die GAP-Statistik interpretieren?

Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere. Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte. Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige …

10 clustering

1

Was bedeutet total ss und zwischen ss beim k-means Clustering?

Ich bin sehr neu in der Clusteranalyse. Ich benutze R für k-means Clustering und frage mich, was diese Dinge sind. Und was ist besser, wenn ihr Verhältnis kleiner oder größer ist?

10 clustering

2

PyMC für nichtparametrisches Clustering: Der Dirichlet-Prozess zur Schätzung der Parameter der Gaußschen Mischung kann nicht geclustert werden

Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste, was ich über diese Methode weiß, stammt aus Videovorträgen …

10 bayesian clustering python pymc nonparametric-bayes

3

So erhalten Sie das Konfidenzintervall für die Änderung des Populations-R-Quadrats

Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte Populationsvarianz für Modell 1 für Modell 2 . Die durch Modell …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

2

Finden einer bekannten Anzahl von Kreismittelpunkten, die die Anzahl von Punkten innerhalb eines festen Abstands maximieren

Ich habe einen Satz von 2D-Daten, in denen ich die Zentren einer bestimmten Anzahl von Kreismittelpunkten ( ) finden möchte , die die Gesamtzahl der Punkte innerhalb eines bestimmten Abstands ( ) maximieren .NNNRRR Ich habe zB 10.000 Datenpunkte und möchte die Zentren von Kreisen finden, die so viele Punkte …

10 r clustering distance

1

Bedeuten geringe Silhouettenbreiten, dass den Daten nur eine geringe Struktur zugrunde liegt?

Ich bin neu in der Sequenzanalyse und habe mich gefragt, wie Sie reagieren, wenn die durchschnittlichen Silhouettenbreiten (ASW) aus Clusteranalysen von auf Optimal Matching basierenden Unähnlichkeitsmatrizen niedrig sind (ca. 25). Wäre es angebracht zu folgern, dass es wenig zugrunde liegende Struktur gibt, die es ermöglichen würde, die Sequenzen zu gruppieren? …

10 clustering traminer

1

Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?

Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Bewertung von Clustern von Markov-Ketten erster Ordnung

Ich habe meinen Datensatz mit mehreren tausend Markov-Ketten erster Ordnung in etwa 10 Cluster zusammengefasst. Gibt es eine empfohlene Methode, wie ich diese Cluster bewerten und herausfinden kann, was die Elemente in den Clustern gemeinsam haben und wie sie sich von anderen Clustern unterscheiden? Daher kann ich eine Aussage wie …

10 data-visualization clustering markov-process

1

Zur kophenetischen Korrelation für das Dendrogramm-Clustering

Betrachten Sie den Kontext eines Dendrogramm-Clusters. Nennen wir ursprüngliche Unterschiede die Abstände zwischen den Individuen. Nach der Erstellung des Dendrogramms definieren wir die kophenetische Unähnlichkeit zwischen zwei Individuen als den Abstand zwischen den Clustern, zu denen diese Individuen gehören. Einige Leute denken, dass die Korrelation zwischen den ursprünglichen Unähnlichkeiten und …

10 clustering classification

Als «clustering» getaggte Fragen