Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]




3
Interpretation des log transformierten Prädiktors und / oder der Antwort
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
Ist es wichtig, Daten vor dem Clustering zu skalieren?
Ich habe dieses Tutorial gefunden , das vorschlägt, dass Sie die Skalierungsfunktion für Features vor dem Clustering ausführen sollten (ich glaube, dass sie Daten in Z-Scores konvertiert). Ich frage mich, ob das notwendig ist. Ich frage hauptsächlich, weil es einen schönen Ellbogenpunkt gibt, wenn ich die Daten nicht skaliere, aber …

8
Wie erkenne ich eine Community in einem gewichteten sozialen Netzwerk / Diagramm?
Ich frage mich, ob jemand vorschlagen könnte, was gute Ausgangspunkte für die Community-Erkennung / Diagrammaufteilung / -Clusterung in einem Diagramm mit gewichteten , ungerichteten Kanten sind. Das fragliche Diagramm hat ungefähr 3 Millionen Kanten und jede Kante drückt den Ähnlichkeitsgrad zwischen den beiden Scheitelpunkten aus, die es verbindet. Insbesondere sind …

5
Dynamisches Time Warping Clustering
Was wäre der Ansatz, um mithilfe von Dynamic Time Warping (DTW) ein Clustering von Zeitreihen durchzuführen? Ich habe über DTW gelesen, um Ähnlichkeiten zwischen zwei Zeitreihen zu finden, während sie zeitlich verschoben werden könnten. Kann ich diese Methode als Ähnlichkeitsmaß für Clustering-Algorithmen wie k-means verwenden?

5
Zeitreihe 'Clustering' in R
Ich habe eine Reihe von Zeitreihendaten. Jede Serie deckt den gleichen Zeitraum ab, obwohl die tatsächlichen Daten in jeder Zeitreihe möglicherweise nicht alle genau aufeinander abgestimmt sind. Das heißt, wenn die Zeitreihe in eine 2D-Matrix eingelesen würde, würde dies ungefähr so ​​aussehen: date T1 T2 T3 .... TN 1/1/01 100 …

3
Wie wähle ich eine Clustering-Methode aus? Wie validiere ich eine Cluster-Lösung (um die Wahl der Methode zu rechtfertigen)?
Eines der größten Probleme bei der Clusteranalyse ist, dass wir möglicherweise unterschiedliche Schlussfolgerungen ziehen müssen, wenn wir auf unterschiedlichen verwendeten Clustering-Methoden (einschließlich unterschiedlicher Verknüpfungsmethoden bei hierarchischem Clustering) basieren. Ich möchte Ihre Meinung dazu wissen - welche Methode Sie wählen, und wie. Man könnte sagen "Die beste Methode zum Clustering ist …


4
Wie interpretiere ich den Mittelwert der Silhouette?
Ich versuche, Silhouette Plot zu verwenden, um die Anzahl der Cluster in meinem Datensatz zu bestimmen. Angesichts des Datensatzes Train habe ich den folgenden Matlab-Code verwendet Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( …

3
Warum wird t-SNE nicht als Dimensionsreduktionstechnik für Clustering oder Klassifizierung verwendet?
In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet, ergibt keine eindeutigen Cluster, weshalb das Modell …

3
Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?
Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(Warum) Ist Kohonen-SOM in Ungnade gefallen?
Soweit ich das beurteilen kann, hatten SOMs im Kohonen-Stil um 2005 einen Höhepunkt und sahen in letzter Zeit nicht so viel Gefallen. Ich habe keine Veröffentlichung gefunden, die besagt, dass SOMs durch eine andere Methode subsumiert wurden oder mit etwas anderem gleichwertig sind (jedenfalls in höheren Dimensionen). Aber es scheint, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.