Scikit Binomial Deviance Loss-Funktion

Dies ist die Binomial-Deviance-Loss-Funktion von scikit GradientBoosting.

   def __call__(self, y, pred, sample_weight=None):
        """Compute the deviance (= 2 * negative log-likelihood). """
        # logaddexp(0, v) == log(1.0 + exp(v))
        pred = pred.ravel()
        if sample_weight is None:
            return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred))
        else:
            return (-2.0 / sample_weight.sum() *
                    np.sum(sample_weight * ((y * pred) - np.logaddexp(0.0, pred))))

Diese Verlustfunktion ist zwischen Klasse mit 0 und Klasse mit 1 nicht ähnlich. Kann jemand erklären, wie dies als OK angesehen wird.

Beispielsweise ist die Verlustfunktion für Klasse 1 ohne Stichprobengewicht

-2(pred - log(1 + exp(pred))

vs für Klasse 0

-2(-log(1+exp(pred))

Die Handlung für diese beiden ist in Bezug auf die Kosten nicht ähnlich. Kann mir jemand helfen zu verstehen.

— Kumaran
quelle

Es sind zwei Beobachtungen erforderlich, um diese Implementierung zu verstehen.

Der erste ist , dass predist nicht eine Wahrscheinlichkeit, es ist ein Protokoll Chancen ist.

Die zweite ist eine standardmäßige algebraische Manipulation der Binomialabweichung, die so abläuft. Sei die Log-Quote, was ruft . Dann ist die Definition der binomialen Abweichung einer Beobachtung (bis zu einem Faktor von ) $P$ sklearnpred $-2$

y \log (p) + (1 - y) \log (1 - p) = \log (1 - p) + y \log (\frac{p}{1 - p})

$y \log(p) + (1-y) \log(1 - p) = \log(1 - p) + y \log \left( \frac{p}{1-p} \right)$

Beachten Sie nun, dass und (eine schnelle Überprüfung besteht darin, sie zu summieren in deinem Kopf bekommst du ). Damit $p = \frac{e^{P}}{1 + e^{P}}$ $1-p = \frac{1}{1 + e^{P}}$ $1$

\log (1 - p) = \log (\frac{1}{1 + e^{P}}) = - \log (1 + e^{P})

$\log(1-p) = \log \left( \frac{1}{1 + e^{P}} \right) = - \log(1 + e^{P})$

und

\log (\frac{p}{1 - p}) = \log (e^{P}) = P

$\log \left( \frac{p}{1-p} \right) = \log ( e^{P} ) = P$

Insgesamt ist also die binomische Abweichung gleich

y P - \log (1 + e^{P})

$y P - \log( 1 + e^{P} )$

Welches ist die Gleichung sklearnverwendet.

— Matthew Drury
quelle

Danke. Wenn ich durch predLog Odds ersetze , ist die Verlustfunktion für beide Klassen einheitlich.

— Kumaran

Die gleiche Frage kam mir kürzlich. Ich habe mir gradientboostedmodels.googlecode.com/git/gbm/inst/doc/gbm.pdf Seite 10 angesehen, auf der der Gradient der Abweichung aufgeführt ist. Aber es scheint, dass der Gradient, den sie zeigen, für den logarithmischen Lik ist, nicht für den negativen logarithmischen Lik. Ist das richtig - es scheint Ihrer Erklärung hier zu entsprechen?

— B_Miner

@B_Miner die Verbindung ist unterbrochen

— GeneX

Vielen Dank @Matthew Drury

— Catbuilts