Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.
In Tensorflows Implementierung von ResNet wird der Varianzskalierungsinitialisierer verwendet . Ich finde auch, dass der Xavier-Initialisierer beliebt ist. Ich habe nicht zu viel Erfahrung damit, was ist in der Praxis besser?
Bei all den Mediengesprächen und dem Hype um Deep Learning in diesen Tagen habe ich ein paar grundlegende Informationen darüber gelesen. Ich habe gerade festgestellt, dass es nur eine andere Methode des maschinellen Lernens ist, Muster aus Daten zu lernen. Aber meine Frage ist: Woher kommt und warum diese Methode …
Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet? Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.
Ich habe das Batch-Normalisierungspapier ( 1) gelesen und nicht verstanden, dass es notwendig ist, gleitende Durchschnitte zu verwenden, um die Genauigkeit des Modells zu verfolgen, und selbst wenn ich akzeptiere, dass dies das Richtige ist, verstehe ich es nicht was sie genau tun. Nach meinem Verständnis (was ich falsch finde) …
Ich habe ein tiefes neuronales Netzwerkmodell und muss es auf meinem Datensatz trainieren, der aus ungefähr 100.000 Beispielen besteht. Meine Validierungsdaten enthalten ungefähr 1000 Beispiele. Da es einige Zeit dauert, um jedes Beispiel zu trainieren (ungefähr 0,5 Sekunden für jedes Beispiel) und um eine Überanpassung zu vermeiden, möchte ich ein …
Ich bin gespannt, wie wichtig der Bias-Knoten für die Wirksamkeit moderner neuronaler Netze ist. Ich kann leicht verstehen, dass es in einem flachen Netzwerk mit nur wenigen Eingabevariablen wichtig sein kann. Moderne neuronale Netze wie das Deep Learning verfügen jedoch häufig über eine große Anzahl von Eingabevariablen, um zu entscheiden, …
Ich verstehe die Faltungs- und Bündelungsschichten, kann aber den Grund für eine vollständig verbundene Schicht in CNNs nicht sehen. Warum ist die vorherige Ebene nicht direkt mit der Ausgabeebene verbunden?
Ich verstehe die Grundstruktur von variierendem Autoencoder und normalem (deterministischem) Autoencoder und die Mathematik dahinter, aber wann und warum würde ich eine Art von Autoencoder der anderen vorziehen? Alles, woran ich denken kann, ist die vorherige Verteilung latenter Variablen von variationalem Autoencoder, die es uns ermöglicht, die latenten Variablen abzutasten …
Die meisten gängigen neuronalen Faltungsnetze enthalten Pooling-Schichten, um die Dimensionen der Ausgabe-Features zu reduzieren. Warum konnte ich nicht dasselbe erreichen, indem ich einfach den Schritt der Faltungsschicht beschleunigte? Was macht die Pooling-Schicht notwendig?
Meine Physikprofessoren an der Graduiertenschule sowie der Nobelpreisträger Feynman präsentierten immer das, was sie Spielzeugmodelle nannten, um grundlegende Konzepte und Methoden der Physik wie den harmonischen Oszillator, das Pendel, den Kreisel und die Black Box zu veranschaulichen. Welche Spielzeugmodelle werden verwendet, um die grundlegenden Konzepte und Methoden zu veranschaulichen, die …
Ich suche nach Artikeln oder Texten, die vergleichen und diskutieren (entweder empirisch oder theoretisch): Boosting- und Entscheidungsbaum- Algorithmen wie Random Forests oder AdaBoost und GentleBoost werden auf Entscheidungsbäume angewendet. mit Deep Learning Methoden wie Restricted Boltzmann Machines , Hierarchical Temporal Memory , Convolutional Neural Networks , etc. Kennt jemand einen …
Viele Online-Tutorials befassen sich mit dem Gradientenabstieg und fast alle verwenden eine feste Schrittgröße (Lernrate ). Warum wird die Zeilensuche nicht verwendet (z. B. Backtracking-Zeilensuche oder exakte Zeilensuche)?αα\alpha
Wir definieren eine Epoche, in der alle verfügbaren Trainingsmuster durchlaufen wurden, und die Mini-Batch-Größe als die Anzahl der Muster, über die wir den Durchschnitt bilden, um die Aktualisierungen der Gewichte / Vorspannungen zu finden, die zum Abstieg des Gradienten erforderlich sind. Meine Frage ist, ob wir aus den Trainingsbeispielen ersatzlos …
Gibt es einen Unterschied zwischen 'Transfer Learning' und 'Domain Adaptation'? Ich weiß nichts über den Kontext, aber ich verstehe, dass wir einen Datensatz 1 haben und darauf trainieren, woraufhin wir einen weiteren Datensatz 2 haben, für den wir unser Modell anpassen möchten, ohne von Grund auf neu zu trainieren, für …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.