Als «unsupervised-learning» getaggte Fragen

Auffinden versteckter (statistischer) Strukturen in unbeschrifteten Daten, einschließlich Clustering und Merkmalsextraktion zur Reduzierung der Dimensionalität.

1
Fernüberwachung: überwacht, halb überwacht oder beides?
"Fernüberwachung" ist ein Lernschema, bei dem ein Klassifikator anhand eines schwach gekennzeichneten Trainingssatzes gelernt wird (Trainingsdaten werden automatisch anhand von Heuristiken / Regeln gekennzeichnet). Ich denke, dass sowohl beaufsichtigtes Lernen als auch semi-beaufsichtigtes Lernen eine solche "Fernüberwachung" beinhalten können, wenn ihre beschrifteten Daten heuristisch / automatisch beschriftet sind. Auf dieser …


4
Wie kann man die Nachteile von Hierarchical Clustering verstehen?
Kann jemand die Vor- und Nachteile von Hierarchical Clustering erklären? Hat hierarchisches Clustering die gleichen Nachteile wie K? Was sind die Vorteile von Hierarchical Clustering gegenüber K? Wann sollten wir K-Mittel anstelle von Hierarchical Clustering verwenden und umgekehrt? Antworten auf diesen Beitrag erklären die Nachteile von k sehr gut. Wie …

4
Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
Was ist Datenmischung?
Dieser Begriff kommt häufig in methodenbezogenen Threads vor . Ist das Mischen eine bestimmte Methode für Data Mining und statistisches Lernen? Ich kann kein relevantes Ergebnis von Google erhalten. Es scheint, dass das Mischen die Ergebnisse vieler Modelle verwechselt und zu einem besseren Ergebnis führt. Gibt es eine Ressource, die …

4
Was ist ein künstliches neuronales Netzwerk?
Während wir uns mit der Literatur über neuronale Netze befassen, können wir andere Methoden mit neuromorphen Topologien identifizieren ("Neural-Network" -ähnliche Architekturen). Und ich spreche nicht über den Satz der universellen Approximation . Beispiele sind unten angegeben. Dann frage ich mich: Was ist die Definition eines künstlichen neuronalen Netzwerks? Seine Topologie …

3
Wie wählt man eine optimale Anzahl latenter Faktoren bei der nicht-negativen Matrixfaktorisierung?
Bei gegebener Matrix findet die nicht negative Matrixfaktorisierung (NMF) zwei nicht negative Matrizen und ( dh mit allen Elementen ) zur Darstellung der zerlegten Matrix als:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, Zum Beispiel, indem Sie verlangen, dass nicht negative …

4
Wie misst man die Form eines Clusters?
Ich weiß, dass diese Frage nicht genau definiert ist, aber einige Cluster sind in der Regel elliptisch oder liegen im Raum niedrigerer Dimensionen, während die anderen nichtlineare Formen aufweisen (in 2D- oder 3D-Beispielen). Gibt es ein Maß für die Nichtlinearität (oder "Form") von Clustern? Beachten Sie, dass es im 2D- …


4
Initialisierung von K-Means-Zentren durch zufällige Unterproben des Datensatzes?
Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren? Angenommen, ich möchte 5 clusters. Ich nehme 5 random samplesvon sagen wir, size=20%des ursprünglichen Datensatzes. Könnte ich dann den Mittelwert jeder dieser 5 Zufallsstichproben als meine 5 anfänglichen Cluster-Zentren verwenden? Ich …


4
Können Sie verschiedene Clustering-Methoden in einem Datensatz ohne fundamentale Wahrheit durch Kreuzvalidierung vergleichen?
Derzeit versuche ich, einen Textdokumentdatensatz zu analysieren, der keine fundamentale Wahrheit enthält. Mir wurde gesagt, dass Sie die k-fache Kreuzvalidierung verwenden können, um verschiedene Clustering-Methoden zu vergleichen. Die Beispiele, die ich in der Vergangenheit gesehen habe, verwenden jedoch eine Grundwahrheit. Gibt es eine Möglichkeit, k-fach Mittel für diesen Datensatz zu …

2
Anwenden von maschinellem Lernen für die DDoS-Filterung
In Stanfords Maschinellem Lernkurs erwähnte Andrew Ng die Anwendung von ML in der IT. Einige Zeit später, als ich DDoS von mittlerer Größe (ca. 20.000 Bots) auf unserer Site bekam, entschied ich mich, mit einem einfachen Neural Network-Klassifikator dagegen anzukämpfen. Ich habe dieses Python-Skript in ungefähr 30 Minuten geschrieben: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.