Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]

1
Klarstellung der Erwartungsmaximierung
Ich fand ein sehr hilfreiches Tutorial zum EM-Algorithmus . Das Beispiel und das Bild aus dem Tutorial sind einfach genial. Verwandte Frage zur Berechnung von Wahrscheinlichkeiten Wie funktioniert die Erwartungsmaximierung? Ich habe noch eine Frage, wie man die im Tutorial beschriebene Theorie mit dem Beispiel verbindet. gtgtg_tlogP(x;Θ)log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t))=logP(x;Θ^(t))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = …

1
Fisher's Exact Test und hypergeometrische Verteilung
Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …


2
Was sind die Abstände zwischen Variablen, die eine Kovarianzmatrix bilden?
Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).n×nn×nn \times nkkk Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)? Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem …





1
R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


1
Weisen Sie Variablen in der Clusteranalyse Gewichte zu
Ich möchte den Variablen in meiner Clusteranalyse unterschiedliche Gewichte zuweisen, aber mein Programm (Stata) scheint keine Option dafür zu haben, daher muss ich dies manuell tun. Stellen Sie sich 4 Variablen A, B, C, D vor. Die Gewichte für diese Variablen sollten sein w(A)=50% w(B)=25% w(C)=10% w(D)=15% Ich frage mich, …
11 clustering  stata 



4
Wie testest du eine Implementierung von k-means?
Haftungsausschluss: Ich habe diese Frage auf Stackoverflow gepostet, dachte aber, dass dies möglicherweise besser für diese Plattform geeignet ist. Wie testen Sie Ihre eigene k-means-Implementierung für mehrdimensionale Datensätze? Ich dachte daran, eine bereits vorhandene Implementierung (dh Matlab) für die Daten auszuführen und die Ergebnisse mit meinem Algorithmus zu vergleichen. Dies …

2
Clustering von sehr verzerrten Zähldaten: Gibt es Vorschläge (Transformation usw.)?
Grundproblem Hier ist mein grundlegendes Problem: Ich versuche, einen Datensatz zu gruppieren, der einige sehr verzerrte Variablen mit Zählungen enthält. Die Variablen enthalten viele Nullen und sind daher für mein Clustering-Verfahren - das wahrscheinlich ein k-means-Algorithmus ist - nicht sehr informativ. Gut, sagen Sie, transformieren Sie die Variablen einfach mit …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.