Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]

4
Clustering, das durch K-Mittel verursacht werden kann
Ich habe die folgende Frage als Testfrage für meine Prüfung erhalten und kann die Antwort einfach nicht verstehen. Ein Streudiagramm der auf die ersten beiden Hauptkomponenten projizierten Daten ist unten gezeigt. Wir möchten untersuchen, ob der Datensatz eine Gruppenstruktur enthält. Zu diesem Zweck haben wir den k-means-Algorithmus mit k = …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
Warum wird bei der Clustering-Methode (K-Mittelwert) nur der Mittelwert verwendet?
Bei Clustering-Methoden wie K-means ist der euklidische Abstand die zu verwendende Metrik. Daher berechnen wir nur die Mittelwerte innerhalb jedes Clusters. Anschließend werden die Elemente anhand ihres Abstands zu jedem Mittelwert angepasst. Ich habe mich gefragt, warum die Gaußsche Funktion nicht als Metrik verwendet wird. Anstatt zu verwenden xi -mean(X), …

1
Selbstorganisierende Karten gegen Kernel k-means
Für eine Anwendung möchte ich Daten (möglicherweise hochdimensional) gruppieren und die Wahrscheinlichkeit der Zugehörigkeit zu einem Cluster extrahieren. Ich denke im Moment über selbstorganisierende Karten oder Kernel-K-Mittel nach, um die Arbeit zu erledigen. Was sind die Vor- und Nachteile jedes Klassifikators für diese Aufgabe? Vermisse ich andere Clustering-Algorithmen, die in …

2
Unerwünschte Ergebnisse von Clustering-Kriterien
Ich habe eine Clusterbildung von Koordinatenpunkten (Längen- und Breitengrad) durchgeführt und überraschende, nachteilige Ergebnisse aus Clustering-Kriterien für die optimale Anzahl von Clustern gefunden. Die Kriterien sind dem clusterCrit()Paket entnommen . Die Punkte, die ich auf einem Plot zu gruppieren versuche (die geografischen Merkmale des Datensatzes sind deutlich sichtbar): Das vollständige …
8 r  clustering 

1
Analysieren Sie ein Fußballspiel: ähnliche Spieler mit DBSCAN und ähnliche Flugbahnen mit TRACLUS
Ich versuche, einen Datensatz zu analysieren, der von Sensoren stammt, die sich in einem Spiel in der Nähe der Schuhe der Spieler befinden ( http://www.orgs.ttu.edu/debs2013/index.php?goto=cfchallengedetails ). Ich habe mich für Clustering entschieden, um Folgendes zu identifizieren: Ähnliche Flugbahnen von Spielern im Spiel unter Verwendung des TRACLUS-Clustering-Algorithmus Ähnliche Spieler zählen einige …

3
Cluster in einer binären Sequenz erkennen
Ich habe eine binäre Sequenz wie 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Wo auf Cluster von meistens Einsen eine größere Anzahl von Nullen folgt, wie im Bild unten (Schwarz steht für 1): Ich möchte eine Technik anwenden (vorzugsweise in R oder in Python), bei der ich diese Cluster von Einsen automatisch erkennen und Bereiche erzeugen …


3
Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?
Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …


3
Mischungsmodelle und Dirichlet-Prozessmischungen (Vorlesungen oder Arbeiten für Anfänger)
Im Zusammenhang mit Online-Clustering finde ich oft viele Artikel, die über "Dirichlet-Prozess" und "endliche / unendliche Mischungsmodelle" sprechen. Angesichts der Tatsache, dass ich noch nie Dirichlet-Prozess- oder Mischungsmodelle verwendet oder gelesen habe. Kennen Sie Vorschläge für Einführungsvorträge oder leicht verständliche Artikel?

1
Korrigieren von Standardfehlern, wenn die unabhängigen Variablen automatisch korreliert werden
Ich habe eine Frage zur Korrektur von Standardfehlern, wenn die unabhängige Variable korreliert. In einer einfachen Zeitreiheneinstellung können wir die Newey-West-Kovarianzmatrix mit einer Reihe von Verzögerungen verwenden, um das Problem der Korrelation in den Residuen zu lösen. Was macht man in einer Panel-Dateneinstellung? Stellen Sie sich die Situation vor, in …

1
Was sind die Hauptunterschiede zwischen taxometrischen Analysen (z. B. MAXCOV, MAXEIG) und Latent Class-Analysen?
Neuere Forschungen haben versucht festzustellen, ob bestimmte psychologische Konstrukte latent dimensional oder taxonisch sind (dh einschließlich Taxons oder Klassen). Beispielsweise könnten Forscher daran interessiert sein, herauszufinden, ob es eine bestimmte "Klasse" von Menschen gibt, bei denen es wahrscheinlicher ist, dass sie nach einer Verletzung chronische Schmerzen entwickeln, oder ob das …

1
Formerkennung für Zeitreihendaten
Ich habe eine große Sammlung von Zeitreihen - Messungen, die alle 15 Minuten (96 Messungen pro Tag) über einen Zeitraum von 1 Jahr an verschiedenen Orten durchgeführt werden. Ich habe jede Zeitreihe in 365 separate kleinere Zeitreihen unterteilt, eine für jeden Tag des Jahres. Wenn man sich diese Zeitreihen ansieht, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.