Als «derivative» getaggte Fragen

Für themenbezogene Fragen, die das mathematische Konzept einer Ableitung betreffen, dh . Für rein mathematische Fragen zum Derivat ist es besser, auf math SE https://math.stackexchange.com/ zu fragen. ddxf(x)

6
Rückausbreitung mit Softmax / Cross Entropy
Ich versuche zu verstehen, wie Backpropagation für eine Softmax / Cross-Entropy-Ausgabeebene funktioniert. Die Kreuzentropiefehlerfunktion ist E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j mit und als Ziel bzw. Ausgabe bei Neuron . Die Summe befindet sich über jedem Neuron in der Ausgabeschicht. selbst ist das Ergebnis der Softmax-Funktion:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Wieder ist die Summe …



1
Herleitung der Änderung von Variablen einer Wahrscheinlichkeitsdichtefunktion?
In dem Buch Mustererkennung und maschinelles Lernen (Formel 1.27) gibt es Dabei istx=g(y),px(x)das PDF, das inBezug auf die Änderung der Variablenpy(y)entspricht.py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) In den Büchern heißt es, dass Beobachtungen, die in den Bereich , für kleine Werte von δ x in …


2
Ableitung eines Gaußschen Prozesses
Ich glaube, dass die Ableitung eines Gaußschen Prozesses (GP) eine andere GP ist, und daher würde ich gerne wissen, ob es geschlossene Formgleichungen für die Vorhersagegleichungen der Ableitung eines GP gibt. Insbesondere verwende ich den quadratisch exponentiellen (auch als Gauß'schen) Kovarianzkern und möchte wissen, wie Vorhersagen über die Ableitung des …

1
Approximation zweiter Ordnung der Verlustfunktion (Deep Learning Book, 7.33)
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

1
Interpretation der Radon-Nikodym-Ableitung zwischen Wahrscheinlichkeitsmaßen?
Ich habe an einigen Stellen die Verwendung der Radon-Nikodym-Ableitung eines Wahrscheinlichkeitsmaßes in Bezug auf ein anderes gesehen, insbesondere in der Kullback-Leibler-Divergenz, wo es die Ableitung des Wahrscheinlichkeitsmaßes eines Modells für einen beliebigen Parameter mit ist bezüglich des realen Parameters θ 0 :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Wobei dies beide Wahrscheinlichkeitsmaße für den …


3
Kann ein neuronales Netzwerk eine Funktion und ihre funktionale Ableitung lernen?
Ich verstehe, dass neuronale Netze (NNs) unter bestimmten Voraussetzungen (sowohl für das Netz als auch für die zu approximierende Funktion) als universelle Approximatoren für beide Funktionen und ihre Ableitungen angesehen werden können. Tatsächlich habe ich eine Reihe von Tests mit einfachen, aber nicht trivialen Funktionen (z. B. Polynomen) durchgeführt, und …


1
Gradienten- und Vektorableitungen: Zeilen- oder Spaltenvektor?
Viele Referenzen (einschließlich Wikipedia und http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf und http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) definieren das Derivat von a Funktion durch einen Vektor als partielle Ableitungen der in einer Reihe angeordneten Funktion (eine Ableitung einer skalarwertigen Funktion ist also ein Zeilenvektor). In dieser Konvention sind der Gradient und die Vektorableitung Transponierungen voneinander. Der Vorteil dieser …

2
Derivat von Softmax in Bezug auf Gewichte
Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Unter Verwendung der Quotientenregel erhalte ich: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.