Statistiken und Big Data clustering

2

Funktionsauswahl für Clustering-Probleme

Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …

9 r clustering feature-selection unsupervised-learning

2

So finden Sie Gewichte für ein Unähnlichkeitsmaß

Ich möchte Attributgewichte für mein Unähnlichkeitsmaß lernen (ableiten), das ich für das Clustering verwenden kann. Ich habe einige Beispiele von Objektpaaren, die "ähnlich" sind (sich im selben Cluster befinden sollten), sowie einige Beispiele von Objektpaaren, die "nicht ähnlich" sind (sollten nicht sein) im selben Cluster sein). Jedes Objekt hat eine …

9 clustering similarities supervised-learning semi-supervised

2

Wie wird dieses Diagramm "Vereinigte Staaten von Reddit" erstellt?

Unten ist eine Grafik von p. 202 von Christian Rudder's Dataclysm , obwohl es von James Dowdell gemacht wurde. Es zeigt die Beziehungen zwischen verschiedenen Top-200-Subreddits, die auf reddit.com von Interesse sind und in denen Benutzer Links, Kommentare und Abstimmungen einreichen können. Diese ähneln den Tags auf dieser Site. Die …

9 clustering data-visualization

2

Clustering von verrauschten Daten oder mit Ausreißern

Ich habe verrauschte Daten von zwei Variablen wie diesen. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

9 r machine-learning clustering

1

Clustering Trägheitsformel in Scikit lernen

Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …

9 clustering python k-means scikit-learn metric

3

Cluster für k-means auswählen: der Fall 1 Cluster

Kennt jemand eine gute Methode, um festzustellen, ob Clustering mit kmeans überhaupt angemessen ist? Was ist, wenn Ihre Probe tatsächlich homogen ist? Ich weiß, dass so etwas wie ein Mischungsmodell (über mclust in R) Anpassungsstatistiken für den 1: k-Clusterfall liefert, aber es scheint, dass alle Techniken zur Bewertung von kmean …

9 r clustering k-means

5

Hilft Preclustering dabei, ein besseres Vorhersagemodell zu erstellen?

Für die Aufgabe der Abwanderungsmodellierung habe ich Folgendes in Betracht gezogen: Berechnen Sie k Cluster für die Daten Erstellen Sie k Modelle für jeden Cluster einzeln. Der Grund dafür ist, dass es nichts zu beweisen gibt, dass die Population der Abonnenten homogen ist, so dass es vernünftig ist anzunehmen, dass …

9 machine-learning clustering data-mining predictive-models

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

7

Suche nach künstlichen 2D-Daten zur Demonstration der Eigenschaften von Clustering-Algorithmen

Ich suche nach Datensätzen von zweidimensionalen Datenpunkten (jeder Datenpunkt ist ein Vektor mit zwei Werten (x, y)), die unterschiedlichen Verteilungen und Formen folgen. Code zum Generieren solcher Daten wäre ebenfalls hilfreich. Ich möchte sie verwenden, um die Leistung einiger Clustering-Algorithmen zu zeichnen / zu visualisieren. Hier sind einige Beispiele: sternförmige …

9 distributions data-visualization clustering dataset

4

Wie kann quantitativ festgestellt werden, ob 1D-Daten um 1 oder 3 Werte gruppiert sind?

Ich habe einige Daten über die Zeit zwischen den Herzschlägen eines Menschen. Ein Hinweis auf ektopische (zusätzliche) Beats ist, dass diese Intervalle um drei Werte anstatt um einen gruppiert sind. Wie kann ich ein quantitatives Maß dafür erhalten? Ich möchte mehrere Datensätze vergleichen, und diese beiden 100-Bin-Histogramme sind repräsentativ für …

9 clustering

5

Was ist der Unterschied zwischen Graph-Clustering- und Community-Erkennungsmethoden?

Grundsätzlich besteht das Ziel von Graph-Clustering- und Community-Erkennungsmethoden darin, Cluster zu berechnen. Gibt es einen Unterschied zwischen ihnen?

9 clustering

2

Muss eine Entfernung eine „Metrik“ sein, damit ein hierarchisches Clustering darauf gültig ist?

Nehmen wir an, wir definieren einen Abstand zwischen N Elementen , der keine Metrik ist. Basierend auf dieser Entfernung verwenden wir dann ein agglomeratives hierarchisches Clustering . Können wir jeden der bekannten Algorithmen (Einzel- / Maximal- / Durchschnittsverknüpfung usw.) verwenden, um aussagekräftige Ergebnisse zu erzielen? Oder anders ausgedrückt, was ist …

9 clustering multilevel-analysis metric hierarchical-clustering

4

Clustering mit asymmetrischen Abstandsmaßen

Wie gruppieren Sie ein Feature mit einem asymmetrischen Abstandsmaß? Angenommen, Sie gruppieren ein Dataset mit Wochentagen als Feature. Die Entfernung von Montag bis Freitag entspricht nicht der Entfernung von Freitag bis Montag. Wie integrieren Sie dies in das Abstandsmaß des Clustering-Algorithmus?

9 clustering distance

2

Dichtebasiertes räumliches Clustering von Anwendungen mit Rauschclustering (DBSCAN) in R.

Diese Frage begann als " Clustering von Geodaten in R " und wurde nun in die DBSCAN-Frage verschoben. Als die Antworten auf die erste Frage nahelegten, suchte ich nach Informationen über DBSCAN und las einige Dokumente darüber. Neue Fragen sind aufgetaucht. DBSCAN erfordert einige Parameter, einer davon ist "Entfernung". Welche …

9 r clustering spatial

3

Radfahren im k-means-Algorithmus

Laut Wiki ist das am häufigsten verwendete Konvergenzkriterium "Zuordnung hat sich nicht geändert". Ich habe mich gefragt, ob Radfahren auftreten kann, wenn wir ein solches Konvergenzkriterium verwenden. Ich würde mich freuen, wenn jemand auf einen Artikel verweist, der ein Beispiel für das Radfahren gibt oder beweist, dass dies unmöglich ist.

9 clustering algorithms k-means

Als «clustering» getaggte Fragen