Statistiken und Big Data clustering

5

Clustering eines Datensatzes mit diskreten und kontinuierlichen Variablen

Ich habe einen Datensatz X mit 10 Dimensionen, von denen 4 diskrete Werte sind. Tatsächlich sind diese 4 diskreten Variablen ordinal, dh ein höherer Wert impliziert eine höhere / bessere Semantik. 2 dieser diskreten Variablen sind in dem Sinne kategorisch, dass für jede dieser Variablen der Abstand, z. B. von …

33 clustering k-means discrete-data continuous-data gaussian-mixture

1

Wie würde PCA bei einer k-means Clustering-Analyse helfen?

Hintergrund : Ich möchte die Wohngebiete einer Stadt anhand ihrer sozioökonomischen Merkmale in Gruppen einteilen, z. B. Dichte der Wohneinheiten, Bevölkerungsdichte, Grünfläche, Wohnungspreis, Anzahl der Schulen / Gesundheitszentren / Kindertagesstätten usw. Ich möchte verstehen, in wie viele verschiedene Gruppen die Wohngebiete unterteilt werden können und was ihre einzigartigen Merkmale sind. …

32 clustering pca k-means dimensionality-reduction

2

Auswahl der richtigen Verknüpfungsmethode für hierarchisches Clustering

Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe. Mein Prozess ist der folgende: Holen Sie sich die neuesten 1000 Beiträge in / r / politics Sammeln Sie alle Kommentare Verarbeiten Sie die Daten und berechnen Sie eine n …

32 clustering distance unsupervised-learning hierarchical-clustering

3

Welche Stop-Kriterien für agglomeratives hierarchisches Clustering werden in der Praxis verwendet?

Ich habe umfangreiche Literatur gefunden, die alle möglichen Kriterien vorschlägt (z . B. Glenn et al. 1985 (pdf) und Jung et al. 2002 (pdf)). Die meisten davon sind jedoch nicht so einfach zu implementieren (zumindest aus meiner Sicht). Ich verwende scipy.cluster.hierarchy , um eine Clusterhierarchie zu erhalten, und ich versuche …

32 clustering

3

Bündelung einer langen Liste von Zeichenfolgen (Wörtern) in Ähnlichkeitsgruppen

Ich habe das folgende Problem zur Hand: Ich habe eine sehr lange Liste von Wörtern, möglicherweise Namen, Nachnamen usw. Ich muss diese Wortliste so gruppieren, dass ähnliche Wörter, zum Beispiel Wörter mit ähnlichem Bearbeitungsabstand (Levenshtein), in der Liste angezeigt werden gleichen Cluster. Zum Beispiel sollten "Algorithmus" und "Alogrithmus" hohe Chancen …

31 clustering k-means pattern-recognition

3

Latent Class Analysis vs. Cluster Analysis - Unterschiede in den Schlussfolgerungen?

Was sind die Unterschiede in den Schlussfolgerungen, die aus einer Latent Class Analysis (LCA) gegenüber einer Cluster-Analyse gezogen werden können? Ist es richtig, dass eine Ökobilanz eine zugrunde liegende latente Variable annimmt, die zu den Klassen führt, während die Clusteranalyse eine empirische Beschreibung von korrelierten Attributen aus einem Clustering-Algorithmus ist? …

30 clustering latent-variable latent-class

5

Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Vergleich hierarchischer Cluster-Dendrogramme, die mit unterschiedlichen Entfernungen und Methoden erhalten wurden

[Der ursprüngliche Titel "Ähnlichkeitsmessung für hierarchische Clusterbäume" wurde später von @ttnphns geändert, um das Thema besser widerzuspiegeln.] Ich führe eine Reihe von hierarchischen Clusteranalysen für einen Datenrahmen von Patientenakten durch (z. B. ähnlich wie http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ). Ich experimentiere mit verschiedenen Distanzmaßen , verschiedenen Parametergewichten und verschiedenen hierarchischen Methoden , um …

28 r clustering distance-functions similarities dendrogram

1

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen

Ich würde gerne verstehen, was der Hauptunterschied in der Implementierung zwischen Standard- und sphärischen K-Mittel-Clustering-Algorithmen ist. In jedem Schritt berechnet k-means die Abstände zwischen Elementvektoren und Cluster-Schwerpunkten und ordnet das Dokument diesem Cluster zu, dessen Schwerpunkt der nächste ist. Dann werden alle Zentroide neu berechnet. Im sphärischen k-Mittel sind alle …

28 clustering data-mining algorithms k-means

4

So reduzieren Sie die Dimensionalität in R

Ich habe eine Matrix, in der a (i, j) angibt, wie oft ich Seite j angesehen habe. Es gibt 27.000 Einzelpersonen und 95.000 Seiten. Ich möchte eine Handvoll "Dimensionen" oder "Aspekte" im Bereich von Seiten haben, die Gruppen von Seiten entsprechen, die oft zusammen betrachtet werden. Mein letztendliches Ziel ist …

28 r clustering dimensionality-reduction

2

Wie werden beim Clustering sowohl binäre als auch kontinuierliche Variablen zusammen verwendet?

Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …

27 r clustering binary-data k-means mixed-type-data

3

Wie unterscheidet sich das Ermitteln des Schwerpunkts vom Ermitteln des Mittelwerts?

Bei der Durchführung von hierarchischen Clustern können viele Metriken verwendet werden, um den Abstand zwischen Clustern zu messen. Zwei solche Metriken implizieren die Berechnung der Schwerpunkte und der Mittelwerte der Datenpunkte in den Clustern. Was ist der Unterschied zwischen dem Mittelwert und dem Schwerpunkt? Sind das nicht die gleichen Punkte …

26 clustering mean

3

LSA vs. PCA (Dokumentenclustering)

Ich untersuche verschiedene Techniken, die beim Clustering von Dokumenten zum Einsatz kommen, und möchte einige Zweifel in Bezug auf PCA (Principal Component Analysis) und LSA (Latent Semantic Analysis) klären. Erste Sache - was sind die Unterschiede zwischen ihnen? Ich weiß, dass in PCA die SVD-Zerlegung auf die Term-Kovarianz-Matrix angewendet wird, …

25 clustering pca data-mining svd lsa

1

Was ist ein akzeptabler Wert des Calinski & Harabasz (CH) -Kriteriums?

Ich habe eine Datenanalyse durchgeführt und versucht, Längsschnittdaten mit R und dem kml- Paket zu clustern . Meine Daten enthalten etwa 400 einzelne Flugbahnen (wie es in der Veröffentlichung heißt). Sie können meine Ergebnisse auf dem folgenden Bild sehen: Nach der Lektüre von Kapitel 2.2 „Auswahl einer optimalen Anzahl von …

25 r clustering panel-data

Als «clustering» getaggte Fragen