Statistiken und Big Data clustering

2

Gibt es eine Funktion in R, die die Zentren der gefundenen Cluster aufnimmt und einem neuen Datensatz Cluster zuordnet?

Ich habe zwei Teile eines mehrdimensionalen Datensatzes, nennen wir sie trainund test. Und ich möchte ein Modell auf der Grundlage des Zugdatensatzes erstellen und es dann anhand des Testdatensatzes validieren. Die Anzahl der Cluster ist bekannt. Ich habe versucht, k-means Clustering in R anzuwenden, und ich habe ein Objekt erhalten, …

14 r clustering k-means

4

k-bedeutet Implementierung mit benutzerdefinierter Distanzmatrix in der Eingabe

Kann mich jemand auf eine k-means-Implementierung hinweisen (besser in matlab), die die Distanzmatrix als Eingabe verwenden kann? Die Standard-Matlab-Implementierung benötigt die Beobachtungsmatrix als Eingabe und es ist nicht möglich, das Ähnlichkeitsmaß benutzerdefiniert zu ändern.

14 clustering matlab k-means

5

Clustering (k-means oder anders) mit einer minimalen Einschränkung der Clustergröße

Ich muss Einheiten in Cluster gruppieren, um die Summe der Quadrate innerhalb der Gruppe (WSS) zu minimieren, aber ich muss sicherstellen, dass die Cluster jeweils mindestens m Einheiten enthalten. Gibt es eine Idee, ob eine der Clustering-Funktionen von R das Clustering in k Cluster unter Einhaltung einer Mindestbeschränkung für die …

14 r clustering

5

Wie kann ich Distanz (Euklidisch) in Ähnlichkeit umwandeln?

Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

13 clustering k-means distance euclidean

1

Stand der Technik bei der Deduplizierung

Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch Verweise auf vorhandene Software enthalten würden, die die Methoden implementiert. Ich weiß zum …

13 clustering data-cleaning record-linkage

1

Eine Routine zur Auswahl von eps und minPts für DBSCAN

DBSCAN ist laut einiger Literatur der am häufigsten zitierte Cluster-Algorithmus und kann beliebige Formcluster basierend auf der Dichte finden. Es hat zwei Parameter eps (als Nachbarschaftsradius) und minPts (als minimale Nachbarn, um einen Punkt als Kernpunkt zu betrachten), von denen ich glaube, dass sie in hohem Maße davon abhängen. Gibt …

13 clustering dbscan

3

Cluster Big Data in R und ist Stichproben relevant?

Ich bin neu in der Datenwissenschaft und habe ein Problem beim Finden von Clustern in einem Datensatz mit 200.000 Zeilen und 50 Spalten in R. Da die Daten sowohl numerische als auch nominale Variablen enthalten, erscheinen Methoden wie K-means, die das euklidische Distanzmaß verwenden, nicht als geeignete Wahl. Ich wende …

13 r clustering sampling large-data

5

Geeignete Clustering-Techniken für zeitliche Daten?

Ich habe zeitliche Daten von Aktivitätsfrequenzen. Ich möchte Cluster in den Daten identifizieren, die unterschiedliche Zeiträume mit ähnlichen Aktivitätsstufen angeben. Idealerweise möchte ich die Cluster identifizieren, ohne die Anzahl der Cluster a priori anzugeben. Was sind geeignete Clustering-Techniken? Wenn meine Frage nicht genügend Informationen zur Beantwortung enthält, welche Informationen muss …

13 machine-learning clustering

4

Initialisierung von K-Means-Zentren durch zufällige Unterproben des Datensatzes?

Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren? Angenommen, ich möchte 5 clusters. Ich nehme 5 random samplesvon sagen wir, size=20%des ursprünglichen Datensatzes. Könnte ich dann den Mittelwert jeder dieser 5 Zufallsstichproben als meine 5 anfänglichen Cluster-Zentren verwenden? Ich …

13 clustering k-means unsupervised-learning

2

Verwendung eines statistischen Signifikanztests zur Validierung der Clusteranalyseergebnisse

Ich untersuche die Verwendung von statistischen Signifikanztests (SST), um die Ergebnisse der Clusteranalyse zu validieren. Ich habe mehrere Artikel zu diesem Thema gefunden, z " Statistische Signifikanz der Clusterbildung für hochdimensionale Daten mit geringer Stichprobengröße " von Liu, Yufeng et al. (2008) " Über einige Signifikanztests in der Clusteranalyse ", …

13 hypothesis-testing clustering statistical-significance

2

Vergleiche von Clustering-Ergebnissen verstehen

Ich experimentiere mit der Klassifizierung von Daten in Gruppen. Ich bin ziemlich neu in diesem Thema und versuche, die Ergebnisse einiger Analysen zu verstehen. Anhand von Beispielen aus Quick-R werden mehrere RPakete vorgeschlagen. Ich habe versucht, zwei dieser Pakete zu verwenden ( fpcmit der kmeansFunktion und mclust). Ein Aspekt dieser …

13 r clustering

1

LARS gegen Koordinatenabstieg für das Lasso

Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

Was machst du, wenn es keinen Ellbogenpunkt für kmeans Clustering gibt?

Ich habe gelernt, dass Sie bei der Auswahl einer Reihe von Clustern nach einem Ellbogenpunkt für verschiedene Werte von K suchen sollten. Ich habe die Werte von withinss für Werte von k von 1 bis 10 geplottet, sehe aber kein klares Ellbogen. Was machst du in so einem Fall?

13 clustering k-means

3

Muss ich korrelierte / kollineare Variablen löschen, bevor ich kmeans laufen lasse?

Ich laufe Kilometer, um Kundencluster zu identifizieren. Ich habe ungefähr 100 Variablen, um Cluster zu identifizieren. Jede dieser Variablen gibt den Prozentsatz der Ausgaben eines Kunden für eine Kategorie an. Wenn ich also 100 Kategorien habe, habe ich diese 100 Variablen, sodass die Summe dieser Variablen für jeden Kunden 100% …

13 clustering data-mining k-means multicollinearity compositional-data

1

k-bedeutet || aka Scalable K-Means ++

Bahman Bahmani et al. Einführung von k-means ||, einer schnelleren Version von k-means ++. Dieser Algorithmus stammt von Seite 4 ihrer Veröffentlichung Bahmani, B., Moseley, B., Vattani, A., Kumar, R. und Vassilvitskii, S. (2012). Skalierbares k-means ++. Verfahren der VLDB-Stiftung , 5 (7), 622-633. Leider verstehe ich diese ausgefallenen griechischen …

12 clustering k-means

Als «clustering» getaggte Fragen