Für themenbezogene Fragen, die das mathematische Konzept einer Ableitung betreffen, dh . Für rein mathematische Fragen zum Derivat ist es besser, auf math SE https://math.stackexchange.com/ zu fragen.
ddxf( x )
Ich versuche zu verstehen, wie Backpropagation für eine Softmax / Cross-Entropy-Ausgabeebene funktioniert. Die Kreuzentropiefehlerfunktion ist E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j mit und als Ziel bzw. Ausgabe bei Neuron . Die Summe befindet sich über jedem Neuron in der Ausgabeschicht. selbst ist das Ergebnis der Softmax-Funktion:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Wieder ist die Summe …
Ich mache den Stanford-Kurs für maschinelles Lernen auf Coursera. Im Kapitel zur logistischen Regression lautet die Kostenfunktion wie folgt: Dann wird es hier abgeleitet: Ich habe versucht, die Ableitung der Kostenfunktion zu erhalten, aber etwas völlig anderes. Wie wird das Derivat erhalten? Was sind die Zwischenschritte?
Ich bin mir nicht sicher, ob diese Frage hierher gehört, aber sie hängt eng mit den Gradientenmethoden in der Optimierung zusammen, die hier offenbar zum Thema gehören. Sie können auf jeden Fall migrieren, wenn Sie der Meinung sind, dass eine andere Community über bessere Fachkenntnisse in diesem Thema verfügt. Kurz …
In dem Buch Mustererkennung und maschinelles Lernen (Formel 1.27) gibt es Dabei istx=g(y),px(x)das PDF, das inBezug auf die Änderung der Variablenpy(y)entspricht.py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) In den Büchern heißt es, dass Beobachtungen, die in den Bereich , für kleine Werte von δ x in …
Ich habe einen Datensatz, der zum Beispiel einige Messungen für Position, Geschwindigkeit und Beschleunigung enthält. Alle kommen aus dem gleichen "Lauf". Ich könnte ein lineares System konstruieren und all diesen Messungen ein Polynom zuordnen. Aber kann ich das auch mit Splines machen? Was ist eine "R" -Methode, um dies zu …
Ich glaube, dass die Ableitung eines Gaußschen Prozesses (GP) eine andere GP ist, und daher würde ich gerne wissen, ob es geschlossene Formgleichungen für die Vorhersagegleichungen der Ableitung eines GP gibt. Insbesondere verwende ich den quadratisch exponentiellen (auch als Gauß'schen) Kovarianzkern und möchte wissen, wie Vorhersagen über die Ableitung des …
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Ich habe an einigen Stellen die Verwendung der Radon-Nikodym-Ableitung eines Wahrscheinlichkeitsmaßes in Bezug auf ein anderes gesehen, insbesondere in der Kullback-Leibler-Divergenz, wo es die Ableitung des Wahrscheinlichkeitsmaßes eines Modells für einen beliebigen Parameter mit ist bezüglich des realen Parameters θ 0 :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Wobei dies beide Wahrscheinlichkeitsmaße für den …
In Andrew Ngs maschinellem Lernkurs verwendet er diese Formel: ∇EINt r ( A B A.T.C.) = C.A B + C.T.ABT.∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T und er macht einen schnellen Beweis, der unten gezeigt wird: ∇EINt r ( A B A.T.C.)= ∇EINt r ( f( A ) A.T.C.)= ∇∘t r …
Ich verstehe, dass neuronale Netze (NNs) unter bestimmten Voraussetzungen (sowohl für das Netz als auch für die zu approximierende Funktion) als universelle Approximatoren für beide Funktionen und ihre Ableitungen angesehen werden können. Tatsächlich habe ich eine Reihe von Tests mit einfachen, aber nicht trivialen Funktionen (z. B. Polynomen) durchgeführt, und …
Ich habe versucht, ein Programm zum Trainieren neuronaler Netze auf meinem Computer zu erstellen. Für das betreffende Netzwerk habe ich mich für die Funktion Cross Entropy Error entschieden: E=−∑jtjlnojE=−∑jtjlnojE = -\sum_jt_j\ln o_j Wobei die für das Neuron ist und die Ausgabe dieses Neurons ist, das versucht, vorherzusagen . j o …
Viele Referenzen (einschließlich Wikipedia und http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf und http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) definieren das Derivat von a Funktion durch einen Vektor als partielle Ableitungen der in einer Reihe angeordneten Funktion (eine Ableitung einer skalarwertigen Funktion ist also ein Zeilenvektor). In dieser Konvention sind der Gradient und die Vektorableitung Transponierungen voneinander. Der Vorteil dieser …
Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Unter Verwendung der Quotientenregel erhalte ich: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.