Statistiken und Big Data clustering

1

Clustering: Soll ich die Jensen-Shannon-Divergenz oder deren Quadrat verwenden?

Ich bündele Wahrscheinlichkeitsverteilungen mit dem Affinitätsausbreitungsalgorithmus und plane, Jensen-Shannon-Divergenz als Distanzmetrik zu verwenden. Ist es richtig, JSD selbst als Distanz zu verwenden oder JSD im Quadrat? Warum? Welche Unterschiede würden sich aus der Wahl des einen oder anderen ergeben?

15 machine-learning clustering entropy distance-functions

3

Ist es in Ordnung, Manhattan-Distanz mit der Cluster-Verknüpfung von Ward in hierarchischen Clustern zu verwenden?

Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...], die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert: eine Distanzmatrix D Der Name der Methode, die zur Bestimmung der Cluster-Verknüpfung verwendet wird. Ich habe die Distanzmatrix D mit Manhattan-Distanz berechnet: d( x …

15 clustering distance-functions ward

1

Wie berechne ich die Reinheit?

Wie berechnen wir in der Clusteranalyse die Reinheit? Wie lautet die Gleichung? Ich suche keinen Code, um das für mich zu tun. Sei ωkωk\omega_k der Cluster k und cjcjc_j die Klasse j. Ist Reinheit also praktisch genau? Es sieht so aus, als würde die Menge der wirklich klassifizierten Klassen pro …

15 clustering

3

Wie zeichnet man die Datenausgabe des Clusters?

Ich habe versucht, eine Reihe von Daten (eine Reihe von Markierungen) zu gruppieren und habe 2 Cluster erhalten. Ich möchte es grafisch darstellen. Etwas verwirrt über die Darstellung, da ich die (x, y) Koordinaten nicht habe. Suchen Sie auch nach der MATLAB / Python-Funktion, um dies zu tun. BEARBEITEN Ich …

15 clustering data-visualization python

1

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Dirichlet-Prozesse für Clustering: Wie gehe ich mit Etiketten um?

F: Was ist die Standardmethode zum Clustering von Daten mithilfe eines Dirichlet-Prozesses? Bei Verwendung von Gibbs treten während der Probenahme Cluster auf und verschwinden. Außerdem haben wir ein Identifizierungsproblem, da die posteriore Verteilung für Cluster-Relabelings nicht relevant ist. Wir können also nicht sagen, welches der Cluster eines Benutzers ist, sondern …

14 bayesian clustering mcmc dirichlet-process identifiability

2

k-bedeutet vs k-Median?

Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche verwenden?

14 clustering k-means

2

Wie kann ich numerische Daten in natürlich geformte "Klammern" gruppieren? (zB Einkommen)

Das Folgende beschreibt, was ich versuche, aber es ist möglich, dass eine alternative Problembeschreibung mein Ziel beschreibt: ich will Teilen Sie die folgenden Zahlen in Gruppen ein, wobei die Varianzen der Zahlen innerhalb jeder Gruppe nicht zu groß sind und die Unterschiede zwischen den Durchschnittswerten der Gruppen nicht zu gering …

14 clustering relative-distribution

3

Warum verwenden wir k-means anstelle anderer Algorithmen?

Ich habe über k-means recherchiert und das habe ich: k-means ist einer der einfachsten Algorithmen, der unbeaufsichtigte Lernmethoden verwendet, um bekannte Clustering-Probleme zu lösen. Es funktioniert sehr gut mit großen Datenmengen. Es gibt jedoch auch Nachteile von K-Mitteln, die sind: Starke Empfindlichkeit gegenüber Ausreißern und Lärm Funktioniert nicht gut mit …

14 clustering data-mining algorithms k-means

4

Wie misst man die Form eines Clusters?

Ich weiß, dass diese Frage nicht genau definiert ist, aber einige Cluster sind in der Regel elliptisch oder liegen im Raum niedrigerer Dimensionen, während die anderen nichtlineare Formen aufweisen (in 2D- oder 3D-Beispielen). Gibt es ein Maß für die Nichtlinearität (oder "Form") von Clustern? Beachten Sie, dass es im 2D- …

14 unsupervised-learning clustering

3

Kann jemand bitte das dynamische Zeitverzerren erklären, um die Ähnlichkeit von Zeitreihen zu bestimmen?

Ich versuche, das dynamische Zeitverzerrungsmaß zu erfassen, um Zeitreihen miteinander zu vergleichen. Ich habe drei Zeitreihendatensätze wie diesen: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, …

14 r time-series clustering

8

Was sind die „heißen Algorithmen“ für maschinelles Lernen?

Dies ist eine naive Frage von jemandem, der anfängt, maschinelles Lernen zu lernen. Ich lese in diesen Tagen das Buch "Maschinelles Lernen: Eine algorithmische Perspektive" von Marsland. Ich finde es nützlich als Einführungsbuch, aber jetzt möchte ich auf fortgeschrittene Algorithmen eingehen, die derzeit die besten Ergebnisse liefern. Ich interessiere mich …

14 machine-learning clustering bioinformatics

3

oderMetriken für Clustering?

Verwendet jemand die Metriken L1L1L_1 oder L.5L.5L_.5 für das Clustering und nicht L2L2L_2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben Aggarwal et al. (2001) an, dass L1L1L_1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die euklidische Distanzmetrik L2L2L_2 und behauptete, dass oder noch besser kann.L.5L.5L_.5L.1L.1L_.1 Gründe für die …

14 clustering distance-functions rule-of-thumb

9

Visualisierungssoftware für Clustering

Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich möchte ~ 22000 Punkte gruppieren. Viele Clustering-Algorithmen funktionieren besser mit besseren Anfangsschätzungen. Welche Tools können mir einen guten Eindruck von …

14 data-visualization clustering software

4

Gibt es nicht entfernungsbasierte Clustering-Algorithmen?

Es scheint, dass für K-means und andere verwandte Algorithmen das Clustering auf der Berechnung des Abstands zwischen Punkten basiert. Gibt es eine, die ohne funktioniert?

14 machine-learning clustering data-mining k-means

Als «clustering» getaggte Fragen