Künstliche neuronale Netze (ANNs) sind eine breite Klasse von Rechenmodellen, die lose auf biologischen neuronalen Netzen basieren. Sie umfassen Feedforward-NNs (einschließlich "tiefer" NNs), Faltungs-NNs, wiederkehrende NNs usw.
Lesen Mit Faltungen tiefer gehen Ich stieß auf eine DepthConcat- Ebene, einen Baustein der vorgeschlagenen Inception- Module , der die Ausgabe mehrerer Tensoren unterschiedlicher Größe kombiniert. Die Autoren nennen dies "Filterverkettung". Es scheint eine Implementierung für Torch zu geben , aber ich verstehe nicht wirklich, was es tut. Kann jemand …
Die Softmax-Funktion, die üblicherweise in neuronalen Netzen verwendet wird, um reelle Zahlen in Wahrscheinlichkeiten umzuwandeln, ist dieselbe Funktion wie die Boltzmann-Verteilung, die Wahrscheinlichkeitsverteilung über Energien für ein Ensemble von Partikeln im thermischen Gleichgewicht bei einer gegebenen Temperatur T in der Thermodynamik. Ich kann einige klare heuristische Gründe erkennen, warum dies …
Was meinen die Leute, wenn sie über neuronale Netze sprechen, wenn sie "Kernelgröße" sagen? Kernel sind Ähnlichkeitsfunktionen, aber was sagt das über die Kernelgröße aus?
Soweit ich weiß, werden sowohl Autoencoder als auch t-SNE zur nichtlinearen Dimensionsreduktion verwendet. Was sind die Unterschiede zwischen ihnen und warum sollte ich einen gegen einen anderen verwenden?
Das LSTM im folgenden Keras-Code input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) kann dargestellt werden als Ich verstehe, dass, wenn wir model.predict(np.array([[[1],[2],[3],[4]]]))die (einzige) LSTM-Einheit aufrufen , zuerst der Vektor [1], dann [2] plus die Rückmeldung von der vorherigen Eingabe usw. bis zum Vektor [4] verarbeitet …
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Nach meinem Verständnis bestehen CNNs aus zwei Teilen. Der erste Teil (Conv / Pool-Schichten), der die Merkmalsextraktion durchführt, und der zweite Teil (fc-Schichten), der die Klassifizierung aus den Merkmalen vornimmt. Da vollständig verbundene neuronale Netze nicht die besten Klassifizierer sind (dh sie werden die meiste Zeit von SVMs und RFs …
Nehmen wir zum Beispiel an, wir erstellen einen Altersschätzer, der auf dem Bild einer Person basiert. Unten haben wir zwei Personen in Anzügen, aber die erste ist deutlich jünger als die zweite. (Quelle: tinytux.com ) Es gibt viele Merkmale, die dies implizieren, zum Beispiel die Gesichtsstruktur. Das aussagekräftigste Merkmal ist …
Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen . Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum …
Wenn wir beispielsweise 10 Beispiele in einem Stapel verarbeiten, können wir meines Erachtens den Verlust für jedes Beispiel summieren. Wie funktioniert die Rückausbreitung in Bezug auf die Aktualisierung der Gewichte für jedes Beispiel? Beispielsweise: Beispiel 1 -> Verlust = 2 Beispiel 2 -> Verlust = -2 Dies führt zu einem …
Ich habe das Batch-Normalisierungspapier [1] gelesen und es hatte einen Abschnitt, in dem ein Beispiel behandelt wird, um zu zeigen, warum die Normalisierung sorgfältig durchgeführt werden muss. Ich kann ehrlich gesagt nicht verstehen, wie das Beispiel funktioniert, und ich bin wirklich sehr neugierig zu verstehen, dass sie so viel Papier …
Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul cicic_i und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt: yi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und …
Ich verwende Feed-Forward NN. Ich verstehe das Konzept, aber meine Frage betrifft Gewichte. Wie können Sie sie interpretieren, dh was stellen sie dar oder wie können sie ungestört sein (nur Funktionskoeffizienten)? Ich habe etwas gefunden, das "Raum der Gewichte" genannt wird, bin mir aber nicht ganz sicher, was es bedeutet.
Ich versuche, ein neuronales Netzwerk zu verwenden, um den Q-Wert beim Q-Learning wie bei Fragen zum Q-Learning mit neuronalen Netzwerken zu approximieren . Wie in der ersten Antwort vorgeschlagen, verwende ich eine lineare Aktivierungsfunktion für die Ausgabeebene, während ich weiterhin die Sigmoid-Aktivierungsfunktion in den verborgenen Ebenen verwende (2, obwohl ich …
Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.