Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.
Dies geschieht unter Bezugnahme auf das Papier Effiziente Objektlokalisierung mithilfe von Faltungsnetzwerken. Soweit ich weiß, ist das Dropout in 2D implementiert. Nachdem der Code von Keras zur Implementierung des räumlichen 2D-Dropouts gelesen wurde, wird im Grunde eine zufällige binäre Maske mit der Form [batch_size, 1, 1, num_channels] implementiert. Was genau …
Insbesondere im Zusammenhang mit Kaggle-Wettbewerben habe ich festgestellt, dass es bei der Leistung des Modells ausschließlich um die Auswahl / Entwicklung von Funktionen geht. Ich kann zwar vollständig verstehen, warum dies bei den konventionelleren / altmodischen ML-Algorithmen der Fall ist, sehe aber nicht, warum dies bei Verwendung tiefer neuronaler Netze …
Gibt es Literatur, die die Wahl der Minibatch-Größe bei der Durchführung eines stochastischen Gradientenabfalls untersucht? Nach meiner Erfahrung scheint es sich um eine empirische Entscheidung zu handeln, die normalerweise durch Kreuzvalidierung oder unter Verwendung unterschiedlicher Faustregeln getroffen wird. Ist es eine gute Idee, die Minibatch-Größe langsam zu erhöhen, wenn der …
Ist es möglich, negative Gewichte (nach genügend Epochen) für tiefe Faltungs-Neuronale Netze zu haben, wenn wir ReLU für alle Aktivierungsschichten verwenden?
Wie wird die Einbettungsschicht in der Keras-Einbettungsschicht trainiert? (Sagen wir, wir verwenden das Tensorflow-Backend, was bedeutet, dass es word2vec, Glove oder Fasttext ähnelt.) Angenommen, wir verwenden keine vorab trainierte Einbettung.
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 9 Monaten . Ich weiß, dass es viele Bibliotheken für maschinelles Lernen und tiefes Lernen gibt, wie Kaffee, …
Der Batch-Normalisierung wurden erhebliche Leistungsverbesserungen in tiefen neuronalen Netzen zugeschrieben. Zahlreiches Material im Internet zeigt, wie es von Aktivierung zu Aktivierung umgesetzt werden kann. Ich habe Backprop bereits mithilfe der Matrixalgebra implementiert, und da ich in Hochsprachen arbeite (während ich mich auf Rcpp(und möglicherweise auch auf GPUs) für eine dichte …
Der jüngste Fortschritt bei neuronalen Netzen wird durch eine Reihe neuer Architekturen zusammengefasst, die sich hauptsächlich durch ihre wachsende Designkomplexität auszeichnen. Von LeNet5 (1994) über AlexNet (2012) bis zu Overfeat (2013) und GoogleLeNet / Inception (2014) und so weiter ... Gibt es einen Versuch, die Maschine in Abhängigkeit von den …
Ein Außenseiter des ML / DL-Bereichs; hat den Udacity Deep Learning Kurs begonnen, der auf Tensorflow basiert; Aufgabe 3 erledigen Aufgabe 4; versuchen, die Lernrate mit der folgenden Konfiguration zu optimieren: Losgröße 128 Anzahl der Schritte: genug, um 2 Epochen zu füllen Größen der versteckten Schichten: 1024, 305, 75 Gewichtsinitialisierung: …
Angenommen, ich verwende ein RNN / LSTM, um eine Stimmungsanalyse durchzuführen, bei der es sich um einen 1: 1-Ansatz handelt (siehe diesen Blog ). Das Netzwerk wird durch eine verkürzte Backpropagation Through Time (BPTT) trainiert, bei der das Netzwerk wie gewohnt nur für 30 letzte Schritte abgewickelt wird. In meinem …
In Ian Goodfellows Deep Learning- Buch steht das geschrieben Manchmal ist die Verlustfunktion, die uns tatsächlich am Herzen liegt (z. B. Klassifizierungsfehler), nicht effizient zu optimieren. Beispielsweise ist eine genaue Minimierung des erwarteten 0-1-Verlusts selbst für einen linearen Klassifizierer normalerweise nicht möglich (exponentiell in der Eingabedimension). In solchen Situationen optimiert …
Hintergrund: Ich studiere Kapitel 6 von Deep Learning von Ian Goodfellow und Yoshua Bengio und Aaron Courville. In Abschnitt 6.2.2.2 (Seiten 182 von 183, die hier eingesehen werden können ) wird die Verwendung von Sigmoid zur Ausgabe von P(y=1|x)P(y=1|x)P(y=1|x) motiviert. Um einen Teil des Materials zusammenzufassen, lassen sie z=wTh+bz=wTh+bz = …
Ich habe eine Rastersuche für eine Reihe von Parametern eingerichtet. Ich versuche, die besten Parameter für ein neuronales Keras-Netz zu finden, das eine binäre Klassifizierung durchführt. Die Ausgabe ist entweder eine 1 oder eine 0. Es gibt ungefähr 200 Funktionen. Als ich eine Rastersuche durchführte, bekam ich eine Reihe von …
Ich möchte den Unterschied zwischen der linearen Regression in einer regulären Analyse des maschinellen Lernens und der linearen Regression in der Einstellung "Deep Learning" kennen. Welche Algorithmen werden für die lineare Regression in Deep-Learning-Umgebungen verwendet?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.