Statistiken und Big Data clustering

2

Erkennen von Clustern „ähnlicher“ Quellcodes

Angenommen, ich habe 400 Studenten (das ist an einer großen Universität), die ein Informatikprojekt durchführen müssen und die alleine arbeiten müssen (keine Gruppe von Studenten). Ein Beispiel für ein Projekt könnte sein, "einen schnellen Fourier-Transformations-Algorithmus in fortran zu implementieren" (ich weiß, das klingt nicht sexy, aber das macht meine Frage …

10 hypothesis-testing clustering

5

Clustering als Mittel zur Aufteilung von Daten für die logistische Regression

Ich versuche, den Erfolg oder Misserfolg von Schülern anhand einiger Funktionen mit einem logistischen Regressionsmodell vorherzusagen. Um die Leistung des Modells zu verbessern, habe ich bereits darüber nachgedacht, die Schüler anhand offensichtlicher Unterschiede in verschiedene Gruppen aufzuteilen und für jede Gruppe separate Modelle zu erstellen. Aber ich denke, es könnte …

10 clustering data-mining logistic

3

Clustering-Verteilungen

Ich habe mehrere Verteilungen (10 Verteilungen in der Abbildung unten). Tatsächlich handelt es sich um Histogramme: Auf der x-Achse gibt es 70 Werte, die die Größe einiger Partikel in einer Lösung darstellen, und für jeden Wert von x ist der entsprechende Wert von y der Anteil der Partikel, deren Größe …

10 clustering

3

Wie werden longitudinale Variablen gruppiert?

Ich habe eine Reihe von Variablen, die Längsschnittdaten von Tag 0 bis Tag 7 enthalten. Ich suche nach einem geeigneten Clustering-Ansatz, mit dem diese Längsschnittvariablen (keine Fälle) in verschiedene Gruppen gruppiert werden können. Ich habe versucht, diesen Datensatz zeitlich getrennt zu analysieren, aber das Ergebnis war ziemlich schwer zu erklären. …

10 clustering

2

Erkennen Sie kreisförmige Muster in Punktwolkendaten

Für einige Volumenrekonstruktionsalgorithmen, an denen ich arbeite, muss ich eine beliebige Anzahl von kreisförmigen Mustern in 3D-Punktdaten (die von einem LIDAR-Gerät stammen) erkennen. Die Muster können beliebig im Raum ausgerichtet sein und in dünnen 2D-Ebenen liegen (wenn auch nicht perfekt). Hier ist ein Beispiel mit zwei Kreisen in derselben Ebene …

10 clustering image-processing

1

Verwenden des Statistikpakets in R für kmeans-Clustering

Ich habe Schwierigkeiten, einen oder zwei Aspekte des Cluster-Pakets zu verstehen. Ich verfolge das Beispiel von Quick-R genau, verstehe aber einen oder zwei Aspekte der Analyse nicht. Ich habe den Code eingefügt, den ich für dieses spezielle Beispiel verwende. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, …

10 r clustering

1

Clusteranalyse gefolgt von Diskriminanzanalyse

Was ist der Grund, wenn überhaupt, die Diskriminanzanalyse (Discriminant Analysis, DA) für die Ergebnisse eines Clustering-Algorithmus wie k-means zu verwenden, wie ich es von Zeit zu Zeit in der Literatur sehe (im Wesentlichen zur klinischen Subtypisierung von psychischen Störungen)? Es wird im Allgemeinen nicht empfohlen, Gruppenunterschiede bei den Variablen zu …

10 clustering discriminant-analysis

1

K-bedeutet: Wie viele Iterationen in praktischen Situationen?

Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen. Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine Stichprobe des Datensatzes entnehmen, wäre …

10 clustering data-mining k-means convergence large-data

2

Unterschied zwischen PCA und spektraler Clusterbildung für einen kleinen Satz von Booleschen Merkmalen

Ich habe einen Datensatz von 50 Proben. Jede Stichprobe besteht aus 11 (möglicherweise korrelierten) Booleschen Merkmalen. Ich möchte einige Beispiele für die Visualisierung dieser Beispiele in einem 2D-Diagramm geben und untersuchen, ob sich unter den 50 Beispielen Cluster / Gruppierungen befinden. Ich habe die folgenden zwei Ansätze ausprobiert: (a) Führen …

10 clustering data-visualization pca k-means spectral-analysis

1

R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

Clustering als Dimensionsreduktion

Ich lese ein Buch "Maschinelles Lernen mit Funken" von Nick Pentreath und auf Seite 224-225 diskutiert der Autor über die Verwendung von K-Mitteln als Form der Dimensionsreduktion. Ich habe diese Art der Dimensionsreduktion noch nie gesehen. Hat sie einen Namen oder / und ist sie für bestimmte Datenformen nützlich ? …

10 clustering k-means dimensionality-reduction

3

Müssen wir einen Trainingssatz und einen Testsatz für das Clustering festlegen?

Wenn wir Klassifizierungen und Regressionen durchführen, legen wir normalerweise Test- und Trainingssätze fest, um Modelle zu erstellen und zu verbessern. Müssen wir beim Clustering jedoch auch Test- und Trainingssätze festlegen? Warum?

10 machine-learning clustering unsupervised-learning

1

Welches Deep-Learning-Modell kann Kategorien klassifizieren, die sich nicht gegenseitig ausschließen?

Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

Adjusted Rand Index vs Adjusted Mutual Information

Ich versuche, die Clusterleistung zu bewerten. Ich habe die Skiscit-Learn-Dokumentation zu Metriken gelesen . Ich verstehe den Unterschied zwischen ARI und AMI nicht. Es scheint mir, dass sie dasselbe auf zwei verschiedene Arten tun. Zitieren aus der Dokumentation: Angesichts der Kenntnis der Zuordnungen der Grundwahrheitsklassen Labels_true und unserer Clustering-Algorithmus-Zuweisungen derselben …

9 clustering python scikit-learn

2

Anwendung der stochastischen Variationsinferenz auf die Bayes'sche Mischung von Gauß'sch

Ich versuche , Gaussian Mixture Modell mit stochastischen Variations Inferenz zu implementieren, nach diesem Papier . Dies ist die pgm der Gaußschen Mischung. Dem Artikel zufolge ist der vollständige Algorithmus der stochastischen Variationsinferenz: Und ich bin immer noch sehr verwirrt über die Methode, sie auf GMM zu skalieren. Zuerst dachte …

9 machine-learning bayesian clustering gaussian-mixture variational-bayes

Als «clustering» getaggte Fragen