Statistiken und Big Data clustering

1

Ich fand ein sehr hilfreiches Tutorial zum EM-Algorithmus . Das Beispiel und das Bild aus dem Tutorial sind einfach genial. Verwandte Frage zur Berechnung von Wahrscheinlichkeiten Wie funktioniert die Erwartungsmaximierung? Ich habe noch eine Frage, wie man die im Tutorial beschriebene Theorie mit dem Beispiel verbindet. gtgtg_tlogP(x;Θ)log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t))=logP(x;Θ^(t))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = …

11 machine-learning clustering algorithms natural-language

1

Fisher's Exact Test und hypergeometrische Verteilung

Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …

11 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

Welche Intuition steckt hinter der Variation der Informationsmetrik (VI) für die Clustervalidierung?

Für Nicht-Statistiker wie mich ist es sehr schwierig, die Idee der VIMetrik (Variation von Informationen) zu erfassen, selbst nachdem sie das relevante Papier von Marina Melia " Vergleich von Clustern - Eine informationsbasierte Distanz " (Journal of Multivariate Analysis, 2007) gelesen hat . Tatsächlich kenne ich viele Begriffe der Cluster …

11 r clustering validation intuition

2

Was sind die Abstände zwischen Variablen, die eine Kovarianzmatrix bilden?

Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).n×nn×nn \times nkkk Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)? Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem …

11 clustering covariance distance-functions distance

5

SOM-Clustering für nominale / zirkuläre Variablen

Ich frage mich nur, ob jemand mit dem Clustering von nominalen Eingaben vertraut ist. Ich habe SOM als Lösung betrachtet, aber anscheinend funktioniert es nur mit numerischen Funktionen. Gibt es Erweiterungen für kategoriale Funktionen? Insbesondere habe ich mich über "Wochentage" als mögliche Funktionen gewundert. Natürlich ist es möglich, es in …

11 clustering unsupervised-learning self-organizing-maps

4

Gibt es Fälle, in denen es in k-means kein optimales k gibt?

Das ist mir seit mindestens ein paar Stunden in den Sinn gekommen. Ich habe versucht, ein optimales k für die Ausgabe des k-means-Algorithmus (mit einer Kosinus-Ähnlichkeitsmetrik ) zu finden, also habe ich die Verzerrung als Funktion der Anzahl der Cluster aufgetragen. Mein Datensatz ist eine Sammlung von 800 Dokumenten in …

11 machine-learning clustering k-means

2

Wie finde ich Gruppierungen (Trajektorien) unter Längsschnittdaten?

Kontext Ich möchte die Szene einstellen, bevor ich die Frage etwas erweitere. Ich habe Längsschnittdaten, Messungen an Probanden ungefähr alle 3 Monate, primäres Ergebnis ist numerisch (wie kontinuierlich bis 1 dp) im Bereich von 5 bis 14, wobei der Großteil (aller Datenpunkte) zwischen 7 und 10 liegt. Wenn ich a …

11 clustering panel-data

2

Visualisierung mehrdimensionaler Daten (LSI) in 2D

Ich verwende die latente semantische Indizierung, um Ähnlichkeiten zwischen Dokumenten zu finden ( danke, JMS! ) Nach der Dimensionsreduzierung habe ich versucht, mit k-means Clustering die Dokumente in Cluster zu gruppieren, was sehr gut funktioniert. Ich möchte jedoch noch einen Schritt weiter gehen und die Dokumente als eine Reihe von …

11 data-visualization clustering python multidimensional-scaling

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Welchen Algorithmus sollte ich verwenden, um einen großen binären Datensatz in wenige Kategorien zu gruppieren?

Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe …

11 clustering dataset k-means binary-data

1

Weisen Sie Variablen in der Clusteranalyse Gewichte zu

Ich möchte den Variablen in meiner Clusteranalyse unterschiedliche Gewichte zuweisen, aber mein Programm (Stata) scheint keine Option dafür zu haben, daher muss ich dies manuell tun. Stellen Sie sich 4 Variablen A, B, C, D vor. Die Gewichte für diese Variablen sollten sein w(A)=50% w(B)=25% w(C)=10% w(D)=15% Ich frage mich, …

11 clustering stata

3

Abstand zwischen zwei Gaußschen Gemischen zur Bewertung von Clusterlösungen

Ich führe eine schnelle Simulation durch, um verschiedene Clustering-Methoden zu vergleichen, und stoße derzeit auf einen Haken beim Versuch, die Cluster-Lösungen zu bewerten. Ich kenne verschiedene Validierungsmetriken (viele finden sich in cluster.stats () in R), aber ich gehe davon aus, dass diese am besten verwendet werden, wenn die geschätzte Anzahl …

11 clustering kullback-leibler gaussian-mixture

2

Wie kann eine Sammlung sortierter Daten "intelligent" abgelegt werden?

Ich versuche, eine sortierte Sammlung intelligent abzulegen. Ich habe eine Sammlung von Daten. Aber ich weiß, dass diese Daten in ungleich große Behälter passen. Ich weiß nicht, wie ich die Endpunkte intelligent auswählen soll, damit sie richtig zu den Daten passen. zum Beispiel:mnnnmmm Angenommen, ich habe 12 Artikel in meiner …

11 clustering histogram binning

4

Wie testest du eine Implementierung von k-means?

Haftungsausschluss: Ich habe diese Frage auf Stackoverflow gepostet, dachte aber, dass dies möglicherweise besser für diese Plattform geeignet ist. Wie testen Sie Ihre eigene k-means-Implementierung für mehrdimensionale Datensätze? Ich dachte daran, eine bereits vorhandene Implementierung (dh Matlab) für die Daten auszuführen und die Ergebnisse mit meinem Algorithmus zu vergleichen. Dies …

11 clustering algorithms

2

Clustering von sehr verzerrten Zähldaten: Gibt es Vorschläge (Transformation usw.)?

Grundproblem Hier ist mein grundlegendes Problem: Ich versuche, einen Datensatz zu gruppieren, der einige sehr verzerrte Variablen mit Zählungen enthält. Die Variablen enthalten viele Nullen und sind daher für mein Clustering-Verfahren - das wahrscheinlich ein k-means-Algorithmus ist - nicht sehr informativ. Gut, sagen Sie, transformieren Sie die Variablen einfach mit …

11 clustering data-transformation k-means count-data compositional-data

Als «clustering» getaggte Fragen