Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]




5
Wie kann ich Distanz (Euklidisch) in Ähnlichkeit umwandeln?
Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

1
Stand der Technik bei der Deduplizierung
Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch Verweise auf vorhandene Software enthalten würden, die die Methoden implementiert. Ich weiß zum …

1
Eine Routine zur Auswahl von eps und minPts für DBSCAN
DBSCAN ist laut einiger Literatur der am häufigsten zitierte Cluster-Algorithmus und kann beliebige Formcluster basierend auf der Dichte finden. Es hat zwei Parameter eps (als Nachbarschaftsradius) und minPts (als minimale Nachbarn, um einen Punkt als Kernpunkt zu betrachten), von denen ich glaube, dass sie in hohem Maße davon abhängen. Gibt …

3
Cluster Big Data in R und ist Stichproben relevant?
Ich bin neu in der Datenwissenschaft und habe ein Problem beim Finden von Clustern in einem Datensatz mit 200.000 Zeilen und 50 Spalten in R. Da die Daten sowohl numerische als auch nominale Variablen enthalten, erscheinen Methoden wie K-means, die das euklidische Distanzmaß verwenden, nicht als geeignete Wahl. Ich wende …

5
Geeignete Clustering-Techniken für zeitliche Daten?
Ich habe zeitliche Daten von Aktivitätsfrequenzen. Ich möchte Cluster in den Daten identifizieren, die unterschiedliche Zeiträume mit ähnlichen Aktivitätsstufen angeben. Idealerweise möchte ich die Cluster identifizieren, ohne die Anzahl der Cluster a priori anzugeben. Was sind geeignete Clustering-Techniken? Wenn meine Frage nicht genügend Informationen zur Beantwortung enthält, welche Informationen muss …

4
Initialisierung von K-Means-Zentren durch zufällige Unterproben des Datensatzes?
Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren? Angenommen, ich möchte 5 clusters. Ich nehme 5 random samplesvon sagen wir, size=20%des ursprünglichen Datensatzes. Könnte ich dann den Mittelwert jeder dieser 5 Zufallsstichproben als meine 5 anfänglichen Cluster-Zentren verwenden? Ich …

2
Verwendung eines statistischen Signifikanztests zur Validierung der Clusteranalyseergebnisse
Ich untersuche die Verwendung von statistischen Signifikanztests (SST), um die Ergebnisse der Clusteranalyse zu validieren. Ich habe mehrere Artikel zu diesem Thema gefunden, z " Statistische Signifikanz der Clusterbildung für hochdimensionale Daten mit geringer Stichprobengröße " von Liu, Yufeng et al. (2008) " Über einige Signifikanztests in der Clusteranalyse ", …

2
Vergleiche von Clustering-Ergebnissen verstehen
Ich experimentiere mit der Klassifizierung von Daten in Gruppen. Ich bin ziemlich neu in diesem Thema und versuche, die Ergebnisse einiger Analysen zu verstehen. Anhand von Beispielen aus Quick-R werden mehrere RPakete vorgeschlagen. Ich habe versucht, zwei dieser Pakete zu verwenden ( fpcmit der kmeansFunktion und mclust). Ein Aspekt dieser …
13 r  clustering 

1
LARS gegen Koordinatenabstieg für das Lasso
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …


3
Muss ich korrelierte / kollineare Variablen löschen, bevor ich kmeans laufen lasse?
Ich laufe Kilometer, um Kundencluster zu identifizieren. Ich habe ungefähr 100 Variablen, um Cluster zu identifizieren. Jede dieser Variablen gibt den Prozentsatz der Ausgaben eines Kunden für eine Kategorie an. Wenn ich also 100 Kategorien habe, habe ich diese 100 Variablen, sodass die Summe dieser Variablen für jeden Kunden 100% …

1
k-bedeutet || aka Scalable K-Means ++
Bahman Bahmani et al. Einführung von k-means ||, einer schnelleren Version von k-means ++. Dieser Algorithmus stammt von Seite 4 ihrer Veröffentlichung Bahmani, B., Moseley, B., Vattani, A., Kumar, R. und Vassilvitskii, S. (2012). Skalierbares k-means ++. Verfahren der VLDB-Stiftung , 5 (7), 622-633. Leider verstehe ich diese ausgefallenen griechischen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.