Als «deep-learning» getaggte Fragen

Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.

1
Was genau ist ein Residual Learning-Block im Kontext von Deep Residual Networks in Deep Learning?
Ich las die Arbeit Deep Residual Learning for Image Recognition und hatte Schwierigkeiten, mit 100% iger Sicherheit zu verstehen, was ein Restblock rechnerisch bedeutet. Beim Lesen ihrer Zeitung haben sie Abbildung 2: Dies zeigt, was ein Restblock sein soll. Ist die Berechnung eines Restblocks einfach dieselbe wie: y =σ( W.2σ( …



2
Google Inception-Modell: Warum gibt es mehrere Softmax?
Die Topologie des Google Inception-Modells finden Sie hier: Google Inception Netowrk Mir ist aufgefallen, dass dieses Modell 3 Softmax-Schichten enthält (Nr. 154, Nr. 152, Nr. 145), von denen 2 eine Art frühes Entkommen dieses Modells darstellen. Soweit ich weiß, ist die Softmax-Ebene für die endgültige Ausgabe vorgesehen. Warum gibt es …


5
Welche Verlustfunktion sollte ich für die binäre Erkennung bei Gesichtserkennung / Nicht-Gesichtserkennung in CNN verwenden?
Ich möchte Deep Learning verwenden, um eine binäre Erkennung von Gesichtern / Nicht-Gesichtern zu trainieren. Welchen Verlust soll ich verwenden ? Ich denke, es ist SigmoidCrossEntropyLoss oder Hinge-loss . Stimmt das, aber ich frage mich auch, ob ich Softmax verwenden soll, aber nur mit zwei Klassen?

1
Approximation zweiter Ordnung der Verlustfunktion (Deep Learning Book, 7.33)
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

4
Wahrscheinlichkeitsfreie Folgerung - was bedeutet das?
Vor kurzem bin ich auf "wahrscheinlichkeitsfreie" Methoden aufmerksam geworden, über die in der Literatur geredet wird. Mir ist jedoch nicht klar, was es bedeutet, dass eine Inferenz- oder Optimierungsmethode wahrscheinlichkeitsfrei ist . Beim maschinellen Lernen besteht das Ziel normalerweise darin, die Wahrscheinlichkeit zu maximieren, dass einige Parameter zu einer Funktion …

3
Wie implementiere ich die L2-Regularisierung in Richtung eines beliebigen Punktes im Raum?
Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen . Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum …

2
Verwenden Sie den Pearson-Korrelationskoeffizienten als Optimierungsziel beim maschinellen Lernen
Beim maschinellen Lernen (für Regressionsprobleme) sehe ich häufig, dass der mittlere quadratische Fehler (MSE) oder der mittlere absolute Fehler (MAE) als Fehlerfunktion zum Minimieren verwendet werden (plus Regularisierungsterm). Ich frage mich, ob es Situationen gibt, in denen die Verwendung des Korrelationskoeffizienten angemessener wäre. Wenn eine solche Situation vorliegt, dann: In …

2
Beziehen sich verbleibende Netzwerke auf die Erhöhung des Gradienten?
Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul cicic_i und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt: yi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und …

3
Wie generiert das Skip-Gram-Modell von Word2Vec die Ausgabevektoren?
Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …

2
Klassifizierung mit teilweise „unbekannten“ Daten
Angenommen, ich möchte einen Klassifizierer lernen, der einen Vektor von Zahlen als Eingabe verwendet und eine Klassenbezeichnung als Ausgabe gibt. Meine Trainingsdaten bestehen aus einer großen Anzahl von Eingabe-Ausgabe-Paaren. Wenn ich jedoch einige neue Daten teste, sind diese Daten normalerweise nur teilweise vollständig. Wenn der Eingabevektor beispielsweise die Länge 100 …

3
Mathematische Modellierung neuronaler Netze als grafische Modelle
Ich habe Mühe, die mathematische Verbindung zwischen einem neuronalen Netzwerk und einem grafischen Modell herzustellen. In grafischen Modellen ist die Idee einfach: Die Wahrscheinlichkeitsverteilung wird gemäß den Cliquen in der Grafik faktorisiert, wobei die Potentiale normalerweise aus der Exponentialfamilie stammen. Gibt es eine äquivalente Begründung für ein neuronales Netzwerk? Kann …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.