Als «unsupervised-learning» getaggte Fragen

Auffinden versteckter (statistischer) Strukturen in unbeschrifteten Daten, einschließlich Clustering und Merkmalsextraktion zur Reduzierung der Dimensionalität.

2
Wie kann man ein Faltungsnetzwerk mit tiefem Glauben für die Audioklassifizierung verstehen?
In " Convolutional Deep Believe Networks für skalierbares unbeaufsichtigtes Lernen hierarchischer Repräsentationen " von Lee et. al. ( PDF ) Faltungs-DBNs werden vorgeschlagen. Auch das Verfahren wird zur Bildklassifizierung ausgewertet. Dies klingt logisch, da es natürliche lokale Bildmerkmale wie kleine Ecken und Kanten usw. gibt. In " Unüberwachtes Feature-Lernen für …

1
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
t-SNE mit gemischten kontinuierlichen und binären Variablen
Ich untersuche derzeit die Visualisierung hochdimensionaler Daten mit t-SNE. Ich habe einige Daten mit gemischten binären und kontinuierlichen Variablen und die Daten scheinen die binären Daten viel zu leicht zu gruppieren. Dies wird natürlich für skalierte Daten (zwischen 0 und 1) erwartet: Der euklidische Abstand ist zwischen binären Variablen immer …



1
Welches Deep-Learning-Modell kann Kategorien klassifizieren, die sich nicht gegenseitig ausschließen?
Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Funktionsauswahl für Clustering-Probleme
Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …

1
Dieses Autoencoder-Netzwerk kann nicht ordnungsgemäß funktionieren (mit Faltungs- und Maxpool-Schichten).
Autoencoder- Netzwerke scheinen viel schwieriger zu sein als normale Klassifikator-MLP-Netzwerke. Nach mehreren Versuchen mit Lasagne ist alles, was ich in der rekonstruierten Ausgabe bekomme, etwas, das im besten Fall einer verschwommenen Mittelung aller Bilder der MNIST- Datenbank ähnelt, ohne zu unterscheiden, was die eingegebene Ziffer tatsächlich ist. Die von mir …

6
Vorbereiten / Erstellen von Funktionen für die Erkennung von Anomalien (Netzwerksicherheitsdaten)
Mein Ziel ist es, Netzwerkprotokolle (z. B. Apache, Syslog, Active Directory-Sicherheitsüberwachung usw.) mithilfe von Clustering / Anomalieerkennung für Intrusion Detection-Zwecke zu analysieren. Aus den Protokollen habe ich viele Textfelder wie IP-Adresse, Benutzername, Hostname, Zielport, Quellport usw. (insgesamt 15-20 Felder). Ich weiß nicht, ob es einige Angriffe in den Protokollen gibt, …

4
Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?
Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …


2
Warum ein Gaußsches Mischungsmodell verwenden?
Ich lerne etwas über Gaußsche Mischungsmodelle (GMM), bin aber verwirrt darüber, warum jemand diesen Algorithmus jemals verwenden sollte. Wie ist dieser Algorithmus besser als andere Standard-Clustering-Algorithmen wie Mittel, wenn es um Clustering geht? Der bedeutet, dass der Algorithmus Daten in Cluster mit eindeutigen Gruppenmitgliedschaften partitioniert , während das Gaußsche Mischungsmodell …


2
Warum wird bei der Clustering-Methode (K-Mittelwert) nur der Mittelwert verwendet?
Bei Clustering-Methoden wie K-means ist der euklidische Abstand die zu verwendende Metrik. Daher berechnen wir nur die Mittelwerte innerhalb jedes Clusters. Anschließend werden die Elemente anhand ihres Abstands zu jedem Mittelwert angepasst. Ich habe mich gefragt, warum die Gaußsche Funktion nicht als Metrik verwendet wird. Anstatt zu verwenden xi -mean(X), …

1
Selbstorganisierende Karten gegen Kernel k-means
Für eine Anwendung möchte ich Daten (möglicherweise hochdimensional) gruppieren und die Wahrscheinlichkeit der Zugehörigkeit zu einem Cluster extrahieren. Ich denke im Moment über selbstorganisierende Karten oder Kernel-K-Mittel nach, um die Arbeit zu erledigen. Was sind die Vor- und Nachteile jedes Klassifikators für diese Aufgabe? Vermisse ich andere Clustering-Algorithmen, die in …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.