Ich habe Schwierigkeiten die Hessian der Zielfunktion, abzuleiten l ( θ )
h θ ( x )
Kennt jemand eine saubere und einfache Möglichkeit, X T D X abzuleiten
Ich habe Schwierigkeiten die Hessian der Zielfunktion, abzuleiten l ( θ )
h θ ( x )
Kennt jemand eine saubere und einfache Möglichkeit, X T D X abzuleiten
Antworten:
Hier leite ich alle notwendigen Eigenschaften und Identitäten ab, damit die Lösung in sich geschlossen ist, aber ansonsten ist diese Herleitung sauber und einfach. Lassen Sie uns unsere Notation formalisieren und die Verlustfunktion etwas kompakter schreiben. Betrachten m
hθ(xi)=σ(ωTxi)=σ(zi)=11+e−zi,
where ω∈Rd
l(ω)=m∑i=1−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
There are two important properties of the logistic function which I derive here for future reference. First, note that 1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z)
Also note that
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
Instead of taking derivatives with respect to components, here we will work directly with vectors (you can review derivatives with vectors here). The Hessian of the loss function l(ω)
Let li(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi))
∂logσ(zi)∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi∂log(1−σ(zi))∂ωT=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
It's now trivial to show that
→∇li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
whew!
Our last step is to compute the Hessian
→∇2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
For m
→H(ω)=→∇2l(ω)=XDXT
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show that l(ω)
δT→H(ω)δ=δT→∇2l(ω)δ=δTXDXTδ=δTXD(δTX)T=‖δTDX‖2≥0
since D>0