Ich würde vorschlagen, dass Sie zuerst einen guten Überblick über das zugrunde liegende probabilistische Modell in einem traditionellen Bayesian Neural Network erhalten. Im Folgenden werden einige Begriffe fett gedruckt . Bitte versuchen Sie, diese Begriffe zu googeln, um detailliertere Informationen zu erhalten. Dies ist nur eine grundlegende Übersicht. Ich hoffe, es hilft.
Betrachten wir den Fall der Regression in vorwärtsgerichteten neuronalen Netzen und führen Sie eine Notation ein.
(x1,…,xp)=:(z(0)1,…,z(0)N0)(z(ℓ)1,…,z(ℓ)Nℓ)ℓ=1,…,L−1 (y1,…,yk)=:(z(L)1,…,z(L)NL)
iℓw(ℓ)ijb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
g(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
Häufig verwendete Aktivierungsfunktionen sind die Logistik , ReLU (auch als positiver Teil bezeichnet ) und Tanh .
ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
In der obigen Beschreibung sind keine Wahrscheinlichkeiten enthalten. Der Zweck des ursprünglichen Geschäfts mit neuronalen Netzen ist die Funktionsanpassung .
Das "tiefe" in Deep Learning steht für das Vorhandensein vieler innerer Schichten in den betrachteten neuronalen Netzen.
{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗Gθ^(x∗)θ^wie eine Strafe für die Zielfunktion oder die Verwendung von
Ausfall während des Trainings.
Geoffrey Hinton (auch bekannt als Deep Learning Godfather) und Mitarbeiter haben viele dieser Dinge erfunden. Erfolgsgeschichten von Deep Learning gibt es überall.
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
σ20
Bayesian Deep Learning steht vor der schwierigen Aufgabe, Proben aus der entsprechenden posterioren Verteilung zu entnehmen. Nachdem dies erreicht ist, werden Vorhersagen auf natürliche Weise mit der posterioren Vorhersageverteilung getroffen , und die mit diesen Vorhersagen verbundenen Unsicherheiten werden vollständig quantifiziert. Das Allerheiligste an Bayesian Deep Learning ist der Aufbau einer effizienten und skalierbaren Lösung. Bei dieser Suche wurden viele Berechnungsmethoden verwendet: Metropolis-Hastings- und Gibbs-Abtastung , Hamiltonian Monte Carlo und in jüngerer Zeit Variational Inference .
In den NIPS-Konferenzvideos finden Sie einige Erfolgsgeschichten: http://bayesiandeeplearning.org/