Als «neural-networks» getaggte Fragen

Künstliche neuronale Netze (ANNs) sind eine breite Klasse von Rechenmodellen, die lose auf biologischen neuronalen Netzen basieren. Sie umfassen Feedforward-NNs (einschließlich "tiefer" NNs), Faltungs-NNs, wiederkehrende NNs usw.


2
Wie tief ist der Zusammenhang zwischen der Softmax-Funktion in ML und der Boltzmann-Verteilung in der Thermodynamik?
Die Softmax-Funktion, die üblicherweise in neuronalen Netzen verwendet wird, um reelle Zahlen in Wahrscheinlichkeiten umzuwandeln, ist dieselbe Funktion wie die Boltzmann-Verteilung, die Wahrscheinlichkeitsverteilung über Energien für ein Ensemble von Partikeln im thermischen Gleichgewicht bei einer gegebenen Temperatur T in der Thermodynamik. Ich kann einige klare heuristische Gründe erkennen, warum dies …



2
Unterschied zwischen einem LSTM mit einer Einheit und einem neuronalen LSTM-Netzwerk mit drei Einheiten
Das LSTM im folgenden Keras-Code input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) kann dargestellt werden als Ich verstehe, dass, wenn wir model.predict(np.array([[[1],[2],[3],[4]]]))die (einzige) LSTM-Einheit aufrufen , zuerst der Vektor [1], dann [2] plus die Rückmeldung von der vorherigen Eingabe usw. bis zum Vektor [4] verarbeitet …

1
Approximation zweiter Ordnung der Verlustfunktion (Deep Learning Book, 7.33)
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

1
Warum schließen CNNs mit FC-Schichten ab?
Nach meinem Verständnis bestehen CNNs aus zwei Teilen. Der erste Teil (Conv / Pool-Schichten), der die Merkmalsextraktion durchführt, und der zweite Teil (fc-Schichten), der die Klassifizierung aus den Merkmalen vornimmt. Da vollständig verbundene neuronale Netze nicht die besten Klassifizierer sind (dh sie werden die meiste Zeit von SVMs und RFs …

3
Empfindlichkeit der Faltungsskala für neuronale Netze
Nehmen wir zum Beispiel an, wir erstellen einen Altersschätzer, der auf dem Bild einer Person basiert. Unten haben wir zwei Personen in Anzügen, aber die erste ist deutlich jünger als die zweite. (Quelle: tinytux.com ) Es gibt viele Merkmale, die dies implizieren, zum Beispiel die Gesichtsstruktur. Das aussagekräftigste Merkmal ist …

3
Wie implementiere ich die L2-Regularisierung in Richtung eines beliebigen Punktes im Raum?
Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen . Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum …

2
Wie aktualisiert der Minibatch-Gradientenabstieg die Gewichte für jedes Beispiel in einem Stapel?
Wenn wir beispielsweise 10 Beispiele in einem Stapel verarbeiten, können wir meines Erachtens den Verlust für jedes Beispiel summieren. Wie funktioniert die Rückausbreitung in Bezug auf die Aktualisierung der Gewichte für jedes Beispiel? Beispielsweise: Beispiel 1 -> Verlust = 2 Beispiel 2 -> Verlust = -2 Dies führt zu einem …

1
Was ist eine Erklärung für das Beispiel, warum die Chargennormalisierung mit einiger Sorgfalt durchgeführt werden muss?
Ich habe das Batch-Normalisierungspapier [1] gelesen und es hatte einen Abschnitt, in dem ein Beispiel behandelt wird, um zu zeigen, warum die Normalisierung sorgfältig durchgeführt werden muss. Ich kann ehrlich gesagt nicht verstehen, wie das Beispiel funktioniert, und ich bin wirklich sehr neugierig zu verstehen, dass sie so viel Papier …

2
Beziehen sich verbleibende Netzwerke auf die Erhöhung des Gradienten?
Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul cicic_i und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt: yi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und …

4
Neuronales Netz - Bedeutung von Gewichten
Ich verwende Feed-Forward NN. Ich verstehe das Konzept, aber meine Frage betrifft Gewichte. Wie können Sie sie interpretieren, dh was stellen sie dar oder wie können sie ungestört sein (nur Funktionskoeffizienten)? Ich habe etwas gefunden, das "Raum der Gewichte" genannt wird, bin mir aber nicht ganz sicher, was es bedeutet.

1
Q-Learning mit Neural Network als Funktionsnäherung
Ich versuche, ein neuronales Netzwerk zu verwenden, um den Q-Wert beim Q-Learning wie bei Fragen zum Q-Learning mit neuronalen Netzwerken zu approximieren . Wie in der ersten Antwort vorgeschlagen, verwende ich eine lineare Aktivierungsfunktion für die Ausgabeebene, während ich weiterhin die Sigmoid-Aktivierungsfunktion in den verborgenen Ebenen verwende (2, obwohl ich …

3
Wie generiert das Skip-Gram-Modell von Word2Vec die Ausgabevektoren?
Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.