Statistiken und Big Data clustering

4

Ist die Dreiecksungleichung für diese korrelationsbasierten Abstände erfüllt?

Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen XXX und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich …

12 correlation clustering distance metric

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Können Sie verschiedene Clustering-Methoden in einem Datensatz ohne fundamentale Wahrheit durch Kreuzvalidierung vergleichen?

Derzeit versuche ich, einen Textdokumentdatensatz zu analysieren, der keine fundamentale Wahrheit enthält. Mir wurde gesagt, dass Sie die k-fache Kreuzvalidierung verwenden können, um verschiedene Clustering-Methoden zu vergleichen. Die Beispiele, die ich in der Vergangenheit gesehen habe, verwenden jedoch eine Grundwahrheit. Gibt es eine Möglichkeit, k-fach Mittel für diesen Datensatz zu …

12 machine-learning clustering cross-validation unsupervised-learning

5

Kann ich PCA zur Variablenauswahl für die Clusteranalyse verwenden?

Ich muss die Anzahl der Variablen reduzieren, um eine Clusteranalyse durchzuführen. Meine Variablen sind stark korreliert, daher habe ich mir überlegt, eine Faktoranalyse-PCA (Principal Component Analysis) durchzuführen. Wenn ich jedoch die resultierenden Bewertungen verwende, sind meine Cluster nicht ganz korrekt (im Vergleich zu früheren Klassifizierungen in der Literatur). Frage: Kann …

12 clustering pca feature-selection factor-analysis

3

Clustering Wahrscheinlichkeitsverteilungen - Methoden & Metriken?

Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz variiert) Gesetz (1 bis 0, ungefähr).) Ich versuche, einen …

12 distributions clustering feature-selection kolmogorov-smirnov k-means

2

Clustering räumlicher Daten in R

Ich habe eine Reihe von monatlichen SST-Daten (Sea Surface Temperature) und möchte eine Cluster-Methode anwenden, um Regionen mit ähnlichen SST-Mustern zu erkennen. Ich habe eine Reihe von monatlichen Datendateien, die von 1985 bis 2009 laufen, und möchte als ersten Schritt das Clustering auf jeden Monat anwenden. Jede Datei enthält Rasterdaten …

12 r clustering spatial

6

Empfohlene Bücher oder Artikel als Einführung in die Clusteranalyse?

Ich arbeite an einem kleinen Textkorpus (200 Millionen), den ich mit einer Clusteranalyse untersuchen möchte. Welche Bücher oder Artikel zu diesem Thema würden Sie empfehlen?

12 machine-learning references clustering

2

Interpretation des Ergebnisses der k-Mittel-Clusterbildung in R.

Ich habe die kmeansAnweisung von R verwendet, um den k-means-Algorithmus für Andersons Iris-Datensatz durchzuführen. Ich habe eine Frage zu einigen Parametern, die ich erhalten habe. Die Ergebnisse sind: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Wofür steht in diesem Fall "Cluster"? Es ist der Mittelwert der …

12 r machine-learning clustering interpretation k-means

1

Robuste Cluster-Methode für gemischte Daten in R.

Ich möchte einen kleinen Datensatz gruppieren (64 Beobachtungen von 4 Intervallvariablen und einer einzelnen kategorialen Drei-Faktor-Variablen). Jetzt bin ich ziemlich neu in der Clusteranalyse, aber ich bin mir bewusst, dass seit den Tagen, als hierarchisches Clustering oder k-means die einzigen verfügbaren Optionen waren, erhebliche Fortschritte erzielt wurden. Insbesondere scheinen neue …

12 clustering model-based-clustering mixed-type-data

3

Wie kann ich testen, ob mein Clustering von Binärdaten signifikant ist?

Ich mache Warenkorbanalysen. Mein Datensatz besteht aus Transaktionsvektoren mit den Artikeln, die die Produkte gekauft haben. Wenn ich k-means auf die Transaktionen anwende, erhalte ich immer ein Ergebnis. Eine Zufallsmatrix würde wahrscheinlich auch einige Cluster zeigen. Gibt es eine Möglichkeit zu testen, ob die Clusterbildung, die ich finde, signifikant ist, …

12 clustering statistical-significance binary-data

2

Wie berechnet der Gower-Abstand die Differenz zwischen binären Variablen?

Ich habe 17 numerische und 5 binäre (0-1) Variablen mit 73 Beispielen in meinem Datensatz. Ich muss eine Clusteranalyse durchführen. Ich weiß, dass der Gower-Abstand eine gute Metrik für Datensätze mit gemischten Variablen ist. Aber ich konnte nicht verstehen , wie der Gower Abstand die Differenz zwischen berechnet Binärgrößen . …

12 clustering distance mixed-type-data

1

Was tun, wenn die Probenkovarianzmatrix nicht invertierbar ist?

Ich arbeite an einigen Clustering-Techniken, bei denen ich für einen bestimmten Cluster von d-dimensionalen Vektoren eine multivariate Normalverteilung annehme und den d-dimensionalen Mittelwertvektor der Stichprobe und die Kovarianzmatrix der Stichprobe berechne. Wenn ich dann versuche zu entscheiden, ob ein neuer, unsichtbarer, d-dimensionaler Vektor zu diesem Cluster gehört, überprüfe ich seine …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

Woher weiß ich, dass mein k-means Clustering-Algorithmus unter dem Fluch der Dimensionalität leidet?

Ich glaube, dass der Titel dieser Frage alles sagt.

12 clustering k-means high-dimensional

1

Mclust Modellauswahl

Das R-Paket mclustverwendet BIC als Kriterium für die Auswahl des Clustermodells. Nach meinem Verständnis sollte ein Modell mit dem niedrigsten BIC gegenüber anderen Modellen ausgewählt werden (wenn Sie sich nur für BIC interessieren). Wenn jedoch alle BIC-Werte negativ sind, Mclustwird standardmäßig das Modell mit dem höchsten BIC-Wert verwendet. Mein allgemeines …

11 r clustering gaussian-mixture bic model-based-clustering

3

Funktioniert Newmans Netzwerkmodularität für signierte, gewichtete Diagramme?

Die Modularität eines Diagramms wird auf seiner Wikipedia-Seite definiert . In einem anderen Beitrag erklärte jemand, dass Modularität für gewichtete Netzwerke leicht berechnet (und maximiert) werden kann, da die Adjazenzmatrix AijAijA_{ij} auch wertvolle Bindungen enthalten kann. Ich würde jedoch gerne wissen, ob dies auch mit vorzeichenbehafteten, geschätzten Kanten funktioniert, die …

11 clustering data-visualization networks partitioning modularity

Als «clustering» getaggte Fragen