7
Warum die maximale Log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit optimieren?
In den meisten maschinellen Lernaufgaben, in denen Sie eine Wahrscheinlichkeit formulieren können, die maximiert werden sollte, würden wir tatsächlich die log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit für einige Parameter optimieren . ZB beim Maximum-Likelihood-Training ist es normalerweise die Log-Likelihood. Wenn Sie dies mit einer Gradientenmethode tun, beinhaltet dies einen Faktor:ppplogplogp\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂logp∂θ=1p⋅∂p∂θ …