Statistiken und Big Data clustering

5

Dimensionalitätsreduktionstechnik zur Maximierung der Trennung bekannter Cluster?

Nehmen wir also an, ich habe eine Reihe von Datenpunkten in R ^ n, wobei n ziemlich groß ist (wie 50). Ich weiß, dass diese Daten in drei Cluster unterteilt sind und ich weiß, zu welchem Cluster jeder Datenpunkt gehört. Alles, was ich tun möchte, ist, diese Cluster in 2D …

8 clustering pca dimensionality-reduction data-visualization

4

Irgendwelche Vorschläge für eine Clustering-Methode für eine unbekannte Anzahl von Clustern und eine nichteuklidische Entfernung?

Ich benötige einen Vorschlag für die Clustering-Methode (unbeaufsichtigte Klassifizierung) für ein Beratungsprojekt. Ich suche eine Methode, die hoffentlich die folgenden Eigenschaften hat: Das Thema meiner Studie hat drei Eigenschaften. Eine wird durch eine (nichteuklidische) Distanzmatrix dargestellt und die anderen beiden liegen in Form von Vektoren im euklidischen Raum vor. Die …

8 clustering bayesian

1

Wie bestimme ich algorithmisch die Werte von T1 und T2 für das Canopy-Clustering?

Ich versuche, Canopy-Clustering zu verwenden, um erste Cluster für KMeans in Mahout bereitzustellen. Gibt es eine Möglichkeit, die Werte der Abstandsschwellen T1 & T2 algorithmisch zu bestimmen / zu approximieren? Im Moment habe ich T1 = 100 und T2 = 1, was anscheinend nichts Gutes bringt.

8 clustering

2

Speicherbedarf von bedeutet Clustering

Kann mir jemand die Faktoren, die den Speicherbedarf von Means-Clustering beeinflussen, mit ein wenig Erklärung erklären?kkk

8 clustering k-means

1

Data Mining-Ansätze zur Analyse sequentieller Daten mit nominalen Attributen

Frage an die erfahrenen Data Miner da draußen: Angesichts dieses Szenarios: Es gibt N Einkaufswagen Jeder Einkaufswagen ist mit einer beliebigen Anzahl von M Artikeln aus einem unendlich großen Satz gefüllt (mit der aktuellen Datenmenge, die ich habe, kann diese beliebige Anzahl Zahlen um 1500 treffen). Die Reihenfolge, in der …

8 clustering classification data-mining ordinal-data

1

Clustering von Zeitreihen

Ich habe viele Zeitreihen in diesem Format 1 Spalte, in der ich Datumsformat (d / m / Jahr) habe, und viele Spalten, die verschiedene Zeitreihen darstellen, wie hier: DATE TS1 TS2 TS3 ... 24/03/2003 0.00 0.00 ... 17/04/2003 -0.05 1.46 11/05/2003 0.46 -3.86 04/06/2003 -2.21 -1.08 28/06/2003 -1.18 -2.16 22/07/2003 …

8 r time-series clustering

3

Clustering von Genen in einem Zeitverlaufsexperiment

Ich habe einige Fragen zum Clustering in Zeitreihen und speziell zum Clustering gesehen, aber ich glaube nicht, dass sie meine Frage beantworten. Hintergrund: Ich möchte Gene in einem Zeitverlaufsexperiment in Hefe bündeln. Es gibt vier Zeitpunkt sagen: t1 t2 t3 und t4 und die Gesamtzahl der Gene G . Ich …

8 r machine-learning clustering microarray

1

Kann jemand den C-Index im Kontext des hierarchischen Clusters erklären?

Dies ist eine Fortsetzung dieser Frage. Ich versuche derzeit, den C-Index zu implementieren, um eine nahezu optimale Anzahl von Clustern aus einer Hierarchie von Clustern zu finden. Dazu berechne ich den C-Index für jeden Schritt der (agglomerativen) hierarchischen Clusterbildung. Das Problem ist, dass der C-Index für sehr degenerierte Cluster minimal …

8 clustering

2

Auswählen der Anzahl der Cluster - Kriterien für die Clustervalidierung im Vergleich zu domänentheoretischen Überlegungen

Ich stehe oft vor dem Problem, eine bestimmte Anzahl von Clustern auswählen zu müssen. Die Partition, die ich am Ende wähle, basiert häufiger auf visuellen und theoretischen Bedenken als auf Qualitätskriterien. Ich habe zwei Hauptfragen. Der erste betrifft die allgemeine Idee der Clusterqualität. Soweit ich weiß, schlagen Kriterien wie der …

8 r machine-learning classification clustering hierarchical-clustering

2

Multivariates Zeitreihen-Clustering

Ich sammle eine Gruppe multivariater Zeitsequenzen. Zum Beispiel gibt es 2000 Zeitreihen. Jede Zeitreihe hat 12 Dimensionen. Gibt es systematische Modelle / Algorithmen, die multivariate Zeitreihen gruppieren können? Zum Beispiel möchte ich einige Zeitreihen identifizieren, die sich stark von anderen unterscheiden. Darüber hinaus kann ich für die Online-Überwachung diesen Algorithmus …

8 machine-learning time-series clustering multivariate-analysis sequential-pattern-mining

1

War es genauso gültig, k-means auf einer Distanzmatrix durchzuführen wie auf einer Datenmatrix (Text Mining-Daten)?

(Dieser Beitrag ist ein Repost einer Frage, die ich gestern gestellt habe (jetzt gelöscht), aber ich habe versucht, die Anzahl der Wörter zu verringern und das, was ich stelle, zu vereinfachen.) Ich hoffe, Hilfe bei der Interpretation eines von mir erstellten kmeans-Skripts und einer Ausgabe zu erhalten. Dies steht im …

8 r clustering k-means text-mining

2

k-means ++ Algorithmus und Ausreißer

Es ist bekannt, dass der k-means-Algorithmus bei Ausreißern leidet. k-means ++ ist eine effektive Methode zur Initalisierung von Clusterzentren. Ich habe die PPT von den Gründern der Methode, Sergei Vassilvitskii und David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (Folie 28) , durchlaufen, was zeigt, dass die Cluster-Center-Initialisierung ist nicht vom Ausreißer betroffen, wie unten …

8 clustering k-means

1

Clustering und A / B-Tests

Meine Frage lautet wie folgt: Stellen wir uns vor, ich habe Cluster in meinen Daten definiert (verschiedene Kundensegmente) und führe einen A / B-Test durch. Kann ich die Leistungen der verschiedenen Cluster beim A / B-Test vergleichen? Ich habe nicht viel Literatur darauf gefunden (tatsächlich fast keine), also habe ich …

8 hypothesis-testing statistical-significance clustering

2

Alternative Entfernungsmetriken für zwei Zeitreihen

Ich habe Zeitreihendaten von verschiedenen Häusern. Angenommen, es handelt sich um Stromverbrauchsdaten. Jetzt möchte ich die Häuser nach einem ähnlichen Stromverbrauchsmuster gruppieren. Zu den verschiedenen Entfernungsmetriken, die ich mir vorstellen kann, um die Ähnlichkeit zu messen, gehören: Euklidische Entfernung DTW- Entfernung Frechet Entfernung Mit euklidischer Distanz fand ich einen Ausreißer …

8 time-series clustering similarities smoothing

2

Wie werden Diagramme von k-nächsten Nachbarn erstellt? (zum Clustering)

Ich habe gesehen, dass es mehrere Clustering-Algorithmen gibt (zum Beispiel CHAMELEON oder sogar Spectral Clustering), die die Daten in einen gewichteten (oder manchmal ungewichteten) k-Nächsten-Nachbarn-Graphen konvertieren, basierend auf den Abständen zwischen Punkten / Beobachtungen / Zeilen und Ich habe mich gefragt, wie diese Grafiken generiert werden. Sind diese Grafiken gerichtet? …

8 clustering graph-theory

Als «clustering» getaggte Fragen