Verwendung für Fragen zur Backpropagation, die häufig beim Training neuronaler Netze in Verbindung mit einer Optimierungsmethode wie dem Gradientenabstieg verwendet wird.
Dies ist eine kleine konzeptionelle Frage, die mich schon seit einiger Zeit beschäftigt: Wie können wir uns durch eine Max-Pooling-Schicht in einem neuronalen Netzwerk rückwärts ausbreiten? Ich bin auf Max-Pooling-Ebenen gestoßen, als ich dieses Tutorial für die nn-Bibliothek von Torch 7 durchgesehen habe . Die Bibliothek abstrahiert die Gradientenberechnung und …
Ich benutze seit einiger Zeit neuronale Netze. Eine Sache, mit der ich ständig zu kämpfen habe, ist die Auswahl eines Optimierers zum Trainieren des Netzwerks (mit Backprop). Normalerweise beginne ich einfach mit einem (zB Standard-SGD) und versuche es dann ziemlich zufällig mit anderen. Ich habe mich gefragt, ob es einen …
Ich habe einige Schwierigkeiten, mit ReLU die Rückübertragung abzuleiten, und ich habe einige Arbeit geleistet, bin mir aber nicht sicher, ob ich auf dem richtigen Weg bin. Kostenfunktion: wobei der reale Wert und ein vorhergesagter Wert ist. Nehmen Sie auch an, dass > 0 immer ist.y y x12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxxx …
Wird mein LSTM überarbeitet, wenn ich es mit dem Schiebefenster trainiere? Warum scheinen die Leute es nicht für LSTMs zu verwenden? Für ein vereinfachtes Beispiel nehmen wir an, dass wir die Zeichenfolge vorhersagen müssen: A B C D E F G H I J K L M N O P …
Ich habe folgende CNN: Ich beginne mit einem Eingabebild der Größe 5x5 Dann wende ich die Faltung mit 2x2 Kernel und stride = 1 an, wodurch eine Feature-Map der Größe 4x4 erzeugt wird. Dann wende ich 2x2 Max-Pooling mit Stride = 2 an, wodurch die Feature-Map auf 2x2 verkleinert wird. …
Ich habe eine kleine Unterfrage zu dieser Frage . Ich verstehe, dass bei der Rückübertragung durch eine Max-Pooling-Schicht der Gradient so zurückgeleitet wird, dass das Neuron in der vorherigen Schicht, das als Max ausgewählt wurde, den gesamten Gradienten erhält. Was ich nicht 100% sicher bin, ist, wie der Gradient in …
Ich habe versucht, ein neuronales Netzwerk von Grund auf neu zu implementieren, um die Mathematik dahinter zu verstehen. Mein Problem hängt vollständig mit der Rückausbreitung zusammen, wenn wir eine Ableitung in Bezug auf die Verzerrung vornehmen, und ich habe alle Gleichungen abgeleitet, die bei der Rückausbreitung verwendet werden. Jetzt stimmt …
Ich versuche herauszufinden, wie viele Gewichte und Vorurteile für CNN benötigt werden. Angenommen, ich habe ein (3, 32, 32) -Bild und möchte einen (32, 5, 5) -Filter anwenden. Für jede Feature-Map habe ich 5x5 Gewichte, daher sollte ich 3 x (5x5) x 32 Parameter haben. Jetzt muss ich die Voreingenommenheit …
Nehmen wir an, wir verwenden eine Stapelgröße von 100 Proben zum Lernen. In jeder Charge wird also das Gewicht jedes Neurons (und der Verzerrung usw.) aktualisiert, indem das Minus der Lernrate * der durchschnittliche Fehlerwert, den wir unter Verwendung der 100 Stichproben * gefunden haben, die Ableitung der Fehlerfunktion in …
Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?
Ich kann zwei Motive sehen, um synthetische Gradienten in RNN zu verwenden: Um das Training zu beschleunigen, korrigieren Sie jede Schicht sofort mit dem vorhergesagten Gradienten Längere Sequenzen lernen können Ich sehe Probleme mit beiden. Bitte beachten Sie, dass ich synthetische Farbverläufe sehr mag und sie gerne implementieren würde. Aber …
Ich habe kürzlich eine Hausaufgabe gemacht, bei der ich ein Modell für die 10-stellige MNIST-Klassifizierung lernen musste. Die HW hatte einen Gerüstcode und ich sollte im Kontext dieses Codes arbeiten. Meine Hausaufgaben funktionieren / bestehen Tests, aber jetzt versuche ich, alles von Grund auf neu zu machen (mein eigenes nn-Framework, …
Es ist eine bekannte Tatsache, dass ein 1-Schicht-Netzwerk die xor-Funktion nicht vorhersagen kann, da es nicht linear trennbar ist. Ich habe versucht, ein 2-Layer-Netzwerk mit der logistischen Sigmoid-Funktion und Backprop zu erstellen, um xor vorherzusagen. Mein Netzwerk hat 2 Neuronen (und eine Vorspannung) auf der Eingangsschicht, 2 Neuronen und 1 …
Das Bild zeigt eine typische Ebene irgendwo in einem Feed-Forward-Netzwerk: a(k)iai(k)a_i^{(k)} ist der Aktivierungswert des -Neurons in der -Schicht.ithithi^{th}kthkthk^{th} W(k)ijWij(k)W_{ij}^{(k)} ist das Gewicht, das das ithithi^{th} Neuron in der kthkthk^{th} Schicht mit dem jt hjthj^{th} Neuron in der ( k + 1)t h(k+1)th(k+1)^{th} Schicht verbindet. z( k + 1 )jzj(k+1)z_j^{(k+1)} …
ReLU ist eine Aktivierungsfunktion, definiert als wobei a = Wx + b .h=max(0,a)h=max(0,a)h = \max(0, a)a=Wx+ba=Wx+ba = Wx + b Normalerweise trainieren wir neuronale Netze mit Methoden erster Ordnung wie SGD, Adam, RMSprop, Adadelta oder Adagrad. Die Rückausbreitung in Verfahren erster Ordnung erfordert eine Ableitung erster Ordnung. Daher wird xxx …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.