Statistiken und Big Data clustering

8

Ich habe einen Clustering-Algorithmus (nicht k-means) mit dem Eingabeparameter (Anzahl der Cluster). Nach dem Clustering möchte ich ein quantitatives Qualitätsmaß für dieses Clustering erhalten. Der Clustering-Algorithmus hat eine wichtige Eigenschaft. Für erhalte ich, wenn ich Datenpunkte ohne signifikante Unterscheidung zwischen diesen in diesen Algorithmus einspeise, einen Cluster mit Datenpunkten und …

17 clustering

3

Visuelles Plotten von mehrdimensionalen Clusterdaten

Ich habe einen Datensatz mit 16 Variablen und möchte nach der Gruppierung nach km die beiden Gruppen zeichnen. Welche Diagramme schlagen Sie vor, um die beiden Cluster visuell darzustellen?

17 data-visualization clustering k-means

4

Clustering-Methoden, bei denen die Anzahl der Cluster nicht angegeben werden muss

Gibt es "nicht parametrische" Clustering-Methoden, für die die Anzahl der Cluster nicht angegeben werden muss? Und andere Parameter wie die Anzahl der Punkte pro Cluster usw.

17 clustering

1

Jenks Natural Breaks in Python: Wie finde ich die optimale Anzahl von Pausen?

Ich habe diese Python-Implementierung des Jenks Natural Breaks- Algorithmus gefunden und konnte sie auf meinem Windows 7-Computer ausführen. Es ist ziemlich schnell und es findet die Brüche in weniger Zeit, wenn man die Größe meiner Geodaten berücksichtigt. Bevor ich diesen Clustering-Algorithmus für meine Daten verwendete, verwendete ich sklearn.clustering.KMeans (hier) Algorithmus. …

16 python clustering optimization

3

Welchen Algorithmus implementiert ward.D in hclust (), wenn es nicht das Kriterium von Ward ist?

Die von der Option "ward.D" verwendete (entspricht der einzigen Ward-Option "ward" in R-Versionen <= 3.0.3) implementiert das Ward-Clustering-Kriterium (1963) nicht, wohingegen die Option "ward.D2" dieses Kriterium implementiert ( Murtagh und Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Anscheinend setzt ward.D das Kriterium von Ward nicht richtig um. Trotzdem scheint es in Bezug …

16 r clustering ward

5

Warum gibt k-means nicht das globale Minimum an?

Ich habe gelesen, dass der k-means-Algorithmus nur zu einem lokalen Minimum und nicht zu einem globalen Minimum konvergiert. Warum ist das? Ich kann mir logischerweise vorstellen, wie sich die Initialisierung auf das endgültige Clustering auswirken könnte, und es besteht die Möglichkeit eines suboptimalen Clusterings, aber ich habe nichts gefunden, was …

16 clustering k-means convergence gradient-descent minimum

4

Clustering von 1D-Daten

Ich habe einen Datensatz, ich möchte Cluster auf diesen Daten basierend auf nur einer Variablen erstellen (es fehlen keine Werte). Ich möchte 3 Cluster basierend auf dieser einen Variablen erstellen. Welcher Clustering-Algorithmus soll verwendet werden, k-means, EM, DBSCAN usw.? Meine Hauptfrage ist, unter welchen Umständen sollte ich k-means über EM …

16 clustering

2

Wann kombinieren wir Dimensionsreduktion mit Clustering?

Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis) angewendet, um die U, S, Vt-Matrizen zu erhalten, eine geeignete Schwelle unter Verwendung des Geröllplots ausgewählt und Clusterbildung …

16 clustering pca dimensionality-reduction text-mining svd

4

Annahmen der Clusteranalyse

Entschuldigung für die rudimentäre Frage, ich bin neu in dieser Form der Analyse und habe ein sehr begrenztes Verständnis der Prinzipien bis jetzt. Ich habe mich nur gefragt, ob viele der parametrischen Annahmen für multivariate / univariate Tests für die Clusteranalyse zutreffen. Viele der Informationsquellen, die ich zur Clusteranalyse gelesen …

16 clustering assumptions

2

Was ist eine gute Methode für das Kurztext-Clustering?

Ich arbeite an einem Text-Clustering-Problem. Die Daten enthalten mehrere Sätze. Gibt es einen guten Algorithmus, der bei kurzen Texten eine hohe Genauigkeit erzielt? Können Sie gute Referenzen vorlegen? Algorithmen wie KMeans und Spectral Clustering funktionieren für dieses Problem nicht gut.

15 machine-learning clustering text-mining

4

Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab

Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Text Mining: Wie gruppiert man Texte (zB Nachrichtenartikel) mit künstlicher Intelligenz?

Ich habe einige neuronale Netze (MLP (vollständig verbunden), Elman (wiederkehrend)) für verschiedene Aufgaben aufgebaut, z. B. zum Spielen von Pong, zum Klassifizieren handgeschriebener Ziffern und anderer Dinge ... Zusätzlich habe ich versucht, einige erste Faltungs-Neuronale Netze aufzubauen, z. B. zum Klassifizieren von mehrstelligen handschriftlichen Notizen, aber ich bin völlig neu …

15 clustering neural-networks feature-selection text-mining self-organizing-maps

2

Anpassen des Mischungsmodells für das Clustering

Ich habe zwei Variablen - X und Y und ich muss den Cluster maximal (und optimal) = 5 machen. Der ideale Plot von Variablen sieht folgendermaßen aus: Ich würde gerne 5 Cluster daraus machen. Etwas wie das: Daher denke ich, dass dies ein Mischungsmodell mit 5 Clustern ist. Jeder Cluster …

15 r clustering gaussian-mixture

1

Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?

Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Zeitreihen- und Anomalieerkennung

Ich möchte einen Algorithmus zum Erkennen einer Anomalie in Zeitreihen einrichten und plane, dafür Clustering zu verwenden. Warum sollte ich eine Distanzmatrix für das Clustering verwenden und nicht die rohen Zeitreihendaten ?, Zum Erkennen der Anomalie verwende ich Dichtebasiertes Clustering, einen Algorithmus als DBscan. Würde das in diesem Fall funktionieren? …

15 time-series clustering trend

Als «clustering» getaggte Fragen