Auffinden versteckter (statistischer) Strukturen in unbeschrifteten Daten, einschließlich Clustering und Merkmalsextraktion zur Reduzierung der Dimensionalität.
In " Convolutional Deep Believe Networks für skalierbares unbeaufsichtigtes Lernen hierarchischer Repräsentationen " von Lee et. al. ( PDF ) Faltungs-DBNs werden vorgeschlagen. Auch das Verfahren wird zur Bildklassifizierung ausgewertet. Dies klingt logisch, da es natürliche lokale Bildmerkmale wie kleine Ecken und Kanten usw. gibt. In " Unüberwachtes Feature-Lernen für …
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
Ich untersuche derzeit die Visualisierung hochdimensionaler Daten mit t-SNE. Ich habe einige Daten mit gemischten binären und kontinuierlichen Variablen und die Daten scheinen die binären Daten viel zu leicht zu gruppieren. Dies wird natürlich für skalierte Daten (zwischen 0 und 1) erwartet: Der euklidische Abstand ist zwischen binären Variablen immer …
Eine "Vorstellung" von der optimalen Anzahl von Clustern in k-means zu bekommen, ist also gut dokumentiert. Ich habe einen Artikel darüber in Gaußschen Gemischen gefunden, bin mir aber nicht sicher, ob ich davon überzeugt bin, verstehe ihn nicht sehr gut. Gibt es eine ... sanftere Möglichkeit, dies zu tun?
Wenn wir Klassifizierungen und Regressionen durchführen, legen wir normalerweise Test- und Trainingssätze fest, um Modelle zu erstellen und zu verbessern. Müssen wir beim Clustering jedoch auch Test- und Trainingssätze festlegen? Warum?
Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …
Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …
Autoencoder- Netzwerke scheinen viel schwieriger zu sein als normale Klassifikator-MLP-Netzwerke. Nach mehreren Versuchen mit Lasagne ist alles, was ich in der rekonstruierten Ausgabe bekomme, etwas, das im besten Fall einer verschwommenen Mittelung aller Bilder der MNIST- Datenbank ähnelt, ohne zu unterscheiden, was die eingegebene Ziffer tatsächlich ist. Die von mir …
Mein Ziel ist es, Netzwerkprotokolle (z. B. Apache, Syslog, Active Directory-Sicherheitsüberwachung usw.) mithilfe von Clustering / Anomalieerkennung für Intrusion Detection-Zwecke zu analysieren. Aus den Protokollen habe ich viele Textfelder wie IP-Adresse, Benutzername, Hostname, Zielport, Quellport usw. (insgesamt 15-20 Felder). Ich weiß nicht, ob es einige Angriffe in den Protokollen gibt, …
Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …
Für einen probabilistischen Mehrklassenklassifikator können wir Wahrscheinlichkeiten der Zugehörigkeit eines neuen Punktes zu jeder Klasse y_i erhalten ; Im Fall von 3 Klassen nehmen wir an, dass wir P (y_a | x)> P (y_b | x)> P (y_c | x) erhalten , daher ist die wahrscheinlichste Klasse von x y_a …
Ich lerne etwas über Gaußsche Mischungsmodelle (GMM), bin aber verwirrt darüber, warum jemand diesen Algorithmus jemals verwenden sollte. Wie ist dieser Algorithmus besser als andere Standard-Clustering-Algorithmen wie Mittel, wenn es um Clustering geht? Der bedeutet, dass der Algorithmus Daten in Cluster mit eindeutigen Gruppenmitgliedschaften partitioniert , während das Gaußsche Mischungsmodell …
Ich habe einen Datensatz mit Benutzeraktivitäten mit 168 Dimensionen, in dem ich Cluster mithilfe von unbeaufsichtigtem Lernen extrahieren möchte. Es ist mir nicht klar, ob ich einen Themenmodellierungsansatz in der Latent Dirichlet Allocation (LDA) oder in Gaussian Mixture Models (GMM) verwenden soll, der eher ein Bayes'scher Ansatz ist. In dieser …
Bei Clustering-Methoden wie K-means ist der euklidische Abstand die zu verwendende Metrik. Daher berechnen wir nur die Mittelwerte innerhalb jedes Clusters. Anschließend werden die Elemente anhand ihres Abstands zu jedem Mittelwert angepasst. Ich habe mich gefragt, warum die Gaußsche Funktion nicht als Metrik verwendet wird. Anstatt zu verwenden xi -mean(X), …
Für eine Anwendung möchte ich Daten (möglicherweise hochdimensional) gruppieren und die Wahrscheinlichkeit der Zugehörigkeit zu einem Cluster extrahieren. Ich denke im Moment über selbstorganisierende Karten oder Kernel-K-Mittel nach, um die Arbeit zu erledigen. Was sind die Vor- und Nachteile jedes Klassifikators für diese Aufgabe? Vermisse ich andere Clustering-Algorithmen, die in …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.