Statistiken und Big Data clustering

3

Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …

9 clustering algorithms large-data

4

Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?

Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Erste Schritte mit Biclustering

Ich habe gelegentlich im Internet über Bikluster recherchiert. (Ich habe den Wiki-Artikel mehrmals gelesen.) Bisher scheint es nur wenige Definitionen oder Standardterminologien zu geben. Ich habe mich gefragt, ob es Standardpapiere oder -bücher gibt, die jeder lesen sollte, der sich für Algorithmen zum Auffinden von Biklustern interessiert. Kann man sagen, …

9 clustering data-mining

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

BIC-Clustering-Kriterium berechnen (um Cluster nach K-Mitteln zu validieren)

Ich frage mich, ob es eine gute Möglichkeit gibt, das Clustering-Kriterium basierend auf der BIC-Formel für eine k-Mittelwert-Ausgabe in R zu berechnen. Ich bin etwas verwirrt darüber, wie ich diesen BIC berechnen soll, damit ich ihn mit anderen Clustering-Modellen vergleichen kann. Derzeit verwende ich die Implementierung des Statistikpakets von k-means.

9 r clustering k-means bic

1

Ellbogenkriterien zur Bestimmung der Anzahl der Cluster

Es wird hier erwähnt , dass eine der Methoden zur Bestimmung der optimalen Anzahl von Clustern in einem Datensatz die "Ellbogenmethode" ist. Hier wird der Prozentsatz der Varianz als das Verhältnis der Varianz zwischen Gruppen zur Gesamtvarianz berechnet. Ich hatte Schwierigkeiten, diese Berechnung zu verstehen. Kann jemand erklären, wie der …

9 clustering k-means

2

Annahme der gleichen Clustergröße beim Clustering

Ich frage mich: Gibt es beim Clustering von Daten mit einem allgemeinen Algorithmus eine Annahme über ungefähr gleiche Größen der Cluster? Zum Beispiel sollten in k-means, wie ich weiß, alle Cluster ca. gleiche Anzahl von Proben. Gilt das auch für andere Clustering-Algorithmen?

9 clustering k-means

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

4

Graph-Clustering-Algorithmen, die negative Gewichte berücksichtigen

Ich habe eine Diagramminstanz mit gewichteten gerichteten Kanten, deren Werte im Bereich [-1,1] liegen können. Ich muss Clustering in diesem Diagramm durchführen, um Gruppen herauszufinden, in denen Eckpunkte stärker korreliert sind. Ich habe nach mehreren Algorithmen gesucht, die auf Clustering oder Community-Erkennungsgraphen basieren, aber die meisten funktionieren aufgrund der negativen …

8 correlation clustering graph-theory networks igraph

1

Wann sollte LDA über GMM für das Clustering verwendet werden?

Ich habe einen Datensatz mit Benutzeraktivitäten mit 168 Dimensionen, in dem ich Cluster mithilfe von unbeaufsichtigtem Lernen extrahieren möchte. Es ist mir nicht klar, ob ich einen Themenmodellierungsansatz in der Latent Dirichlet Allocation (LDA) oder in Gaussian Mixture Models (GMM) verwenden soll, der eher ein Bayes'scher Ansatz ist. In dieser …

8 clustering gaussian-mixture unsupervised-learning topic-models

1

Effiziente Methode zur Berechnung der Abstände zwischen Schwerpunkten aus der Entfernungsmatrix

Lassen Sie uns eine quadratische symmetrische Matrix quadratischer euklidischer Abstände zwischen Punkten und einem Vektor mit einer Länge von , die die Cluster- oder Gruppenzugehörigkeit ( Cluster) der Punkte anzeigt ; Ein Cluster kann aus Punkt bestehen.D.D.\bf Dnnnnnnkkk≥ 1≥1\ge1 Was ist hier die effizienteste oder wirklich effizienteste (in Bezug auf …

8 clustering mean distance euclidean

3

Der beste Weg zum Clustering einer Adjazenzmatrix

Es fiel mir schwer, resultierende Cluster einer Adjazenzmatrix zu interpretieren. Ich habe 200 relativ große Matrizen, die Themen darstellen, die Teilkorrelationen (z-Scores) von Zeitreihen (neuronale Daten) enthalten. Ziel ist es, diese 210 Matrizen zu gruppieren und potenzielle unentdeckte Gemeinschaften zu erkennen. Also habe ich weitere Teilkorrelationsberechnungen durchgeführt, die zu einer …

8 clustering neuroimaging

3

Verwenden von k-means mit anderen Metriken

Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird. Kürzlich habe ich zwei Artikel gelesen, in denen die …

8 clustering k-means metric

1

Nichtparametrisches Mischungsmodell und Cluster

Ich habe eine Frage zu Clustern, die ich mit einem nichtparametrischen Mischungsansatz behandeln möchte (glaube ich). Ich arbeite an der Erklärung des menschlichen Verhaltens. Jede Zeile meiner Datenbank enthält: die ID von jemandem einige Parameter der Umgebung X (Beispiel: Temperatur, Wind usw.) eine binäre Variable Y , die die Reaktion …

8 machine-learning clustering computational-statistics mixture

2

Clustering von Daten mit einer Mischung aus kontinuierlichen und kategorialen Variablen

Ich habe Daten, die einen Aspekt des menschlichen Verhaltens darstellen. Ich möchte es (unbeaufsichtigt) in irgendeine Art von Verhaltensprofilen gruppieren. Jetzt sind einige meiner Variablen kategorisch (mit 2 oder mehr Kategorien) und einige sind kontinuierlich (die meisten sind Prozentsätze). Einige Variablen sind noch komplexer, da eine Kategorie weiter kontinuierlich ist …

8 r clustering categorical-data continuous-data

Als «clustering» getaggte Fragen