Statistiken und Big Data clustering

4

Clustering, das durch K-Mittel verursacht werden kann

Ich habe die folgende Frage als Testfrage für meine Prüfung erhalten und kann die Antwort einfach nicht verstehen. Ein Streudiagramm der auf die ersten beiden Hauptkomponenten projizierten Daten ist unten gezeigt. Wir möchten untersuchen, ob der Datensatz eine Gruppenstruktur enthält. Zu diesem Zweck haben wir den k-means-Algorithmus mit k = …

8 clustering k-means

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Warum wird bei der Clustering-Methode (K-Mittelwert) nur der Mittelwert verwendet?

Bei Clustering-Methoden wie K-means ist der euklidische Abstand die zu verwendende Metrik. Daher berechnen wir nur die Mittelwerte innerhalb jedes Clusters. Anschließend werden die Elemente anhand ihres Abstands zu jedem Mittelwert angepasst. Ich habe mich gefragt, warum die Gaußsche Funktion nicht als Metrik verwendet wird. Anstatt zu verwenden xi -mean(X), …

8 normal-distribution clustering k-means unsupervised-learning gaussian-mixture

1

Selbstorganisierende Karten gegen Kernel k-means

Für eine Anwendung möchte ich Daten (möglicherweise hochdimensional) gruppieren und die Wahrscheinlichkeit der Zugehörigkeit zu einem Cluster extrahieren. Ich denke im Moment über selbstorganisierende Karten oder Kernel-K-Mittel nach, um die Arbeit zu erledigen. Was sind die Vor- und Nachteile jedes Klassifikators für diese Aufgabe? Vermisse ich andere Clustering-Algorithmen, die in …

8 clustering unsupervised-learning

2

Unerwünschte Ergebnisse von Clustering-Kriterien

Ich habe eine Clusterbildung von Koordinatenpunkten (Längen- und Breitengrad) durchgeführt und überraschende, nachteilige Ergebnisse aus Clustering-Kriterien für die optimale Anzahl von Clustern gefunden. Die Kriterien sind dem clusterCrit()Paket entnommen . Die Punkte, die ich auf einem Plot zu gruppieren versuche (die geografischen Merkmale des Datensatzes sind deutlich sichtbar): Das vollständige …

8 r clustering

1

Analysieren Sie ein Fußballspiel: ähnliche Spieler mit DBSCAN und ähnliche Flugbahnen mit TRACLUS

Ich versuche, einen Datensatz zu analysieren, der von Sensoren stammt, die sich in einem Spiel in der Nähe der Schuhe der Spieler befinden ( http://www.orgs.ttu.edu/debs2013/index.php?goto=cfchallengedetails ). Ich habe mich für Clustering entschieden, um Folgendes zu identifizieren: Ähnliche Flugbahnen von Spielern im Spiel unter Verwendung des TRACLUS-Clustering-Algorithmus Ähnliche Spieler zählen einige …

8 clustering

3

Cluster in einer binären Sequenz erkennen

Ich habe eine binäre Sequenz wie 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Wo auf Cluster von meistens Einsen eine größere Anzahl von Nullen folgt, wie im Bild unten (Schwarz steht für 1): Ich möchte eine Technik anwenden (vorzugsweise in R oder in Python), bei der ich diese Cluster von Einsen automatisch erkennen und Bereiche erzeugen …

8 classification clustering data-mining pattern-recognition binary-data

3

Numerische Instabilität der Berechnung der inversen Kovarianzmatrix

Ich habe 65 Stichproben von 21-dimensionalen Daten ( hier eingefügt ) und konstruiere daraus die Kovarianzmatrix. Bei der Berechnung in C ++ wird hier die Kovarianzmatrix eingefügt . Und wenn ich in Matlab aus den Daten berechnet werde (wie unten gezeigt), wird die Kovarianzmatrix hier eingefügt Matlab-Code zur Berechnung von …

8 clustering matlab covariance distance-functions matrix-inverse

3

Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?

Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Konfidenzintervalle bei Verwendung des Bayes-Theorems

Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

2

Cluster-Clickstream-Daten

Ich bin kürzlich in den Bereich des maschinellen Lernens eingetreten. Für ein Projekt, an dem ich arbeite, muss ich Benutzer anhand der Reihenfolge gruppieren, in der sie Webseiten auf einer Website besucht haben. Ich habe Daten in Form von: ['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...] Dabei …

8 clustering unsupervised-learning model-based-clustering

3

Mischungsmodelle und Dirichlet-Prozessmischungen (Vorlesungen oder Arbeiten für Anfänger)

Im Zusammenhang mit Online-Clustering finde ich oft viele Artikel, die über "Dirichlet-Prozess" und "endliche / unendliche Mischungsmodelle" sprechen. Angesichts der Tatsache, dass ich noch nie Dirichlet-Prozess- oder Mischungsmodelle verwendet oder gelesen habe. Kennen Sie Vorschläge für Einführungsvorträge oder leicht verständliche Artikel?

8 clustering inference mixture dirichlet-distribution dirichlet-process

1

Korrigieren von Standardfehlern, wenn die unabhängigen Variablen automatisch korreliert werden

Ich habe eine Frage zur Korrektur von Standardfehlern, wenn die unabhängige Variable korreliert. In einer einfachen Zeitreiheneinstellung können wir die Newey-West-Kovarianzmatrix mit einer Reihe von Verzögerungen verwenden, um das Problem der Korrelation in den Residuen zu lösen. Was macht man in einer Panel-Dateneinstellung? Stellen Sie sich die Situation vor, in …

8 clustering standard-error panel-data

1

Was sind die Hauptunterschiede zwischen taxometrischen Analysen (z. B. MAXCOV, MAXEIG) und Latent Class-Analysen?

Neuere Forschungen haben versucht festzustellen, ob bestimmte psychologische Konstrukte latent dimensional oder taxonisch sind (dh einschließlich Taxons oder Klassen). Beispielsweise könnten Forscher daran interessiert sein, herauszufinden, ob es eine bestimmte "Klasse" von Menschen gibt, bei denen es wahrscheinlicher ist, dass sie nach einer Verletzung chronische Schmerzen entwickeln, oder ob das …

8 clustering latent-variable psychology latent-class model-based-clustering

1

Formerkennung für Zeitreihendaten

Ich habe eine große Sammlung von Zeitreihen - Messungen, die alle 15 Minuten (96 Messungen pro Tag) über einen Zeitraum von 1 Jahr an verschiedenen Orten durchgeführt werden. Ich habe jede Zeitreihe in 365 separate kleinere Zeitreihen unterteilt, eine für jeden Tag des Jahres. Wenn man sich diese Zeitreihen ansieht, …

8 time-series clustering curves

Als «clustering» getaggte Fragen