Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]


3
Ist es in Ordnung, Manhattan-Distanz mit der Cluster-Verknüpfung von Ward in hierarchischen Clustern zu verwenden?
Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...], die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert: eine Distanzmatrix D Der Name der Methode, die zur Bestimmung der Cluster-Verknüpfung verwendet wird. Ich habe die Distanzmatrix D mit Manhattan-Distanz berechnet: d( x …

1
Wie berechne ich die Reinheit?
Wie berechnen wir in der Clusteranalyse die Reinheit? Wie lautet die Gleichung? Ich suche keinen Code, um das für mich zu tun. Sei ωkωk\omega_k der Cluster k und cjcjc_j die Klasse j. Ist Reinheit also praktisch genau? Es sieht so aus, als würde die Menge der wirklich klassifizierten Klassen pro …
15 clustering 

3
Wie zeichnet man die Datenausgabe des Clusters?
Ich habe versucht, eine Reihe von Daten (eine Reihe von Markierungen) zu gruppieren und habe 2 Cluster erhalten. Ich möchte es grafisch darstellen. Etwas verwirrt über die Darstellung, da ich die (x, y) Koordinaten nicht habe. Suchen Sie auch nach der MATLAB / Python-Funktion, um dies zu tun. BEARBEITEN Ich …

1
Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

2
Dirichlet-Prozesse für Clustering: Wie gehe ich mit Etiketten um?
F: Was ist die Standardmethode zum Clustering von Daten mithilfe eines Dirichlet-Prozesses? Bei Verwendung von Gibbs treten während der Probenahme Cluster auf und verschwinden. Außerdem haben wir ein Identifizierungsproblem, da die posteriore Verteilung für Cluster-Relabelings nicht relevant ist. Wir können also nicht sagen, welches der Cluster eines Benutzers ist, sondern …

2
k-bedeutet vs k-Median?
Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche verwenden?


3
Warum verwenden wir k-means anstelle anderer Algorithmen?
Ich habe über k-means recherchiert und das habe ich: k-means ist einer der einfachsten Algorithmen, der unbeaufsichtigte Lernmethoden verwendet, um bekannte Clustering-Probleme zu lösen. Es funktioniert sehr gut mit großen Datenmengen. Es gibt jedoch auch Nachteile von K-Mitteln, die sind: Starke Empfindlichkeit gegenüber Ausreißern und Lärm Funktioniert nicht gut mit …

4
Wie misst man die Form eines Clusters?
Ich weiß, dass diese Frage nicht genau definiert ist, aber einige Cluster sind in der Regel elliptisch oder liegen im Raum niedrigerer Dimensionen, während die anderen nichtlineare Formen aufweisen (in 2D- oder 3D-Beispielen). Gibt es ein Maß für die Nichtlinearität (oder "Form") von Clustern? Beachten Sie, dass es im 2D- …

3
Kann jemand bitte das dynamische Zeitverzerren erklären, um die Ähnlichkeit von Zeitreihen zu bestimmen?
Ich versuche, das dynamische Zeitverzerrungsmaß zu erfassen, um Zeitreihen miteinander zu vergleichen. Ich habe drei Zeitreihendatensätze wie diesen: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, …


3
oderMetriken für Clustering?
Verwendet jemand die Metriken L1L1L_1 oder L.5L.5L_.5 für das Clustering und nicht L2L2L_2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben Aggarwal et al. (2001) an, dass L1L1L_1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die euklidische Distanzmetrik L2L2L_2 und behauptete, dass oder noch besser kann.L.5L.5L_.5L.1L.1L_.1 Gründe für die …

9
Visualisierungssoftware für Clustering
Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich möchte ~ 22000 Punkte gruppieren. Viele Clustering-Algorithmen funktionieren besser mit besseren Anfangsschätzungen. Welche Tools können mir einen guten Eindruck von …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.