Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.
Ich lerne über Deep Learning (insbesondere CNNs) und wie es normalerweise sehr viele Daten erfordert, um eine Überanpassung zu verhindern. Mir wurde jedoch auch gesagt, dass je höher die Kapazität / mehr Parameter eines Modells sind, desto mehr Daten erforderlich sind, um eine Überanpassung zu verhindern. Daher lautet meine Frage: …
Nach "Efficient Backprop" von LeCun et al. (1998) ist es empfehlenswert, alle Eingaben so zu normalisieren, dass sie um 0 zentriert sind und im Bereich der maximalen zweiten Ableitung liegen. So würden wir zum Beispiel [-0.5,0.5] für die "Tanh" -Funktion verwenden. Dies soll den Fortschritt der Rückausbreitung unterstützen, wenn der …
Nehmen Sie die folgende eindimensionale Sequenz an: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... Buchstaben A, B, C, ..hier repräsentieren "gewöhnliche" Ereignisse. Symbole stehen #, $, %, ...hier für "besondere" Ereignisse Der zeitliche Abstand zwischen allen Ereignissen ist ungleichmäßig (von Sekunden …
Nach dem Lesen vieler Deep-Learning-Artikel besteht eine Art raues Gefühl darin, dass es viele Tricks gibt, das Netzwerk zu trainieren, um eine überdurchschnittliche Leistung zu erzielen. Aus Sicht der Branchenanwendungen ist es sehr schwierig, diese Art von Tricks zu entwickeln, mit Ausnahme der Elite-Forschungsgruppen in großen Technologieunternehmen, z. B. Google …
Ich versuche, die Rezeptionsfelder von CNN besser zu verstehen. Dazu möchte ich das Empfangsfeld jedes Neurons in LeNet berechnen. Für ein normales MLP ist es ziemlich einfach (siehe http://deeplearning.net/tutorial/lenet.html#sparse-connectivity ), aber es ist schwieriger, das Empfangsfeld eines Neurons in einer Schicht nach einer oder mehreren Faltungsschichten und zu berechnen Schichten …
Ich habe extrem spärliche Eingaben, z. B. Positionen bestimmter Merkmale in einem Eingabebild. Darüber hinaus kann jedes Merkmal mehrere Erkennungen haben (nicht sicher, ob dies einen Einfluss auf das Design des Systems hat). Dies werde ich als k-Kanal-Binärbild mit EIN-Pixeln präsentieren, die das Vorhandensein dieses Merkmals darstellen, und umgekehrt. Wir …
Ein Variations-Autoencoder (VAE) bietet eine Möglichkeit, die Wahrscheinlichkeitsverteilung lernen die einen Eingang mit seiner latenten Darstellung Beziehung setzt . Insbesondere ordnet der Codierer einen Eingang einer Verteilung auf . Ein typischer Encoder gibt Parameter , die die Gaußsche Verteilung . Diese Verteilung wird als Näherung für .p ( x , …
Hallo, ich studiere Regressionstechniken. Meine Daten haben 15 Funktionen und 60 Millionen Beispiele (Regressionsaufgabe). Als ich viele bekannte Regressionstechniken ausprobierte (gradientenverstärkter Baum, Entscheidungsbaumregression, AdaBoostRegressor usw.), lief die lineare Regression hervorragend. Unter diesen Algorithmen fast am besten bewertet. Was kann der Grund dafür sein? Da meine Daten so viele Beispiele enthalten, …
Beim Lesen der semantischen Segmentierungspapiere sowie der entsprechenden Implementierungen stellte ich fest, dass einige Ansätze Softmax verwenden, während andere Sigmoid für die Beschriftung auf Pixelebene verwenden. In Bezug auf U-Net-Papier ist die Ausgabe beispielsweise eine Feature-Map mit zwei Kanälen. Ich habe einige Implementierungen mit Softmax über diese beiden Kanalausgänge gesehen. …
Bei der Anwendung von Dropout in künstlichen neuronalen Netzen muss die Tatsache kompensiert werden, dass zum Zeitpunkt des Trainings ein Teil der Neuronen deaktiviert wurde. Dazu gibt es zwei gemeinsame Strategien: Skalieren der Aktivierung zur Testzeit Umkehren des Aussetzers während der Trainingsphase Die beiden Strategien sind in den folgenden Folien …
Ich lese dieses Papier: Skype-Übersetzer, bei dem CD-DNN-HMMs (kontextabhängige tiefe neuronale Netze mit Hidden-Markov-Modellen) verwendet werden. Ich kann die Idee des Projekts und die Architektur, die sie entworfen haben, verstehen, aber ich verstehe nicht, was die Senone sind . Ich habe nach einer Definition gesucht, aber nichts gefunden - Wir …
Ich habe das Deep Learning-Buch gelesen und bin auf folgenden Absatz gestoßen (Seite 109, zweiter Absatz): Die Trainings- und Testdaten werden durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert, die als Datengenerierungsprozess bezeichnet wird. Wir machen normalerweise eine Reihe von Annahmen, die zusammen als iid-Annahmen bekannt sind. Diese Annahmen bestehen darin, dass …
Ich bin mir nicht sicher, was ich aus der offiziellen Dokumentation verstehe, in der es heißt: Rückgabe: Ein Paar (Ausgänge, Status) wobei: outputs: Der RNN-Ausgangstensor. Wenn time_major == False(Standard), ist dies eine Tensorform : [batch_size, max_time, cell.output_size]. Wenn time_major == Truedies ein Tensor ist : [max_time, batch_size, cell.output_size]. Wenn cell.output_sizees …
Deep Learning ist heutzutage ein immer heißer werdendes Thema. Was sind die Hauptannahmen, die dazu führen, dass Deep Learning in einigen Datensätzen fehlt? Beispiel: Funktioniert es bei verrauschten Datensätzen gut?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.