Warum die maximale Log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit optimieren?

66

In den meisten maschinellen Lernaufgaben, in denen Sie eine Wahrscheinlichkeit formulieren können, die maximiert werden sollte, würden wir tatsächlich die log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit für einige Parameter optimieren . ZB beim Maximum-Likelihood-Training ist es normalerweise die Log-Likelihood. Wenn Sie dies mit einer Gradientenmethode tun, beinhaltet dies einen Faktor: $p$ $\log p$ $\theta$

\frac{\partial \log p}{\partial θ} = \frac{1}{p} \cdot \frac{\partial p}{\partial θ}

$\frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta}$

Sehen Sie hier oder hier für einige Beispiele.

Natürlich ist die Optimierung äquivalent, aber der Gradient wird unterschiedlich sein, so dass sich jede gradientenbasierte Methode anders verhält (insbesondere stochastische Gradientenmethoden). Gibt es eine Rechtfertigung dafür, dass der Gradient besser funktioniert als der Gradient? $\log p$ $p$

probability optimization log-likelihood

— Albert
quelle

3

Sie müssen beachten, dass wir normalerweise die Wahrscheinlichkeit des Einsatzes von Derivaten maximieren. Andererseits wird in vielen Fällen die Unabhängigkeitsbedingung angewendet, was bedeutet, dass die Wahrscheinlichkeit das Produkt einiger Funktionen der Wahrscheinlichkeitsdichte ist. Darüber hinaus führt ein Produkt mit vielen kleinen Werten (im [0,1] Intervall) zu einem sehr kleinen Wert. Dies führt zu einer Rechenschwierigkeit.

— TPArrow

@ Alejandro Rodriguez Check meine Antwort hier für mehr Details.

— Paul

65

Gradientenmethoden optimieren Allgemeinen besser als da der Gradient von im Allgemeinen besser skaliert ist . Das heißt, es hat eine Größe, die die Geometrie der Zielfunktion konsistent und hilfreich widerspiegelt, sodass es einfacher ist, eine geeignete Schrittgröße auszuwählen und in weniger Schritten das Optimum zu erreichen. $\log p(x)$ $p(x)$ $\log p(x)$

Um zu sehen, was ich meine, vergleichen Sie den Gradientenoptimierungsprozess für und . An jedem Punkt , der Gradient von istWenn wir das mit multiplizieren , erhalten wir die genaue Schrittgröße, die erforderlich ist, um das globale Optimum am Ursprung zu erreichen, unabhängig davon, was $p(x) = \exp(-x^2)$ $f(x) = \log p(x) = -x^2$ $x$ $f(x)$

f^{'} (x) = - 2 x .

$f'(x) = -2x.$

1 / 2

$1/2$

x

$x$ ist. Dies bedeutet, dass wir nicht zu hart arbeiten müssen, um eine gute Schrittgröße (oder "Lernrate" im ML-Jargon) zu erhalten. Egal wo unser Ausgangspunkt ist, wir setzen unseren Schritt auf die Hälfte des Gefälles und sind in einem Schritt am Ursprung. Und wenn wir den genauen Faktor nicht kennen, können wir einfach eine Schrittgröße um 1 auswählen, ein bisschen nach Zeilen suchen und sehr schnell eine gute Schrittgröße finden, die überall gut funktioniert ist. Diese Eigenschaft ist robust gegenüber der Translation und Skalierung von . Während die Skalierung von führt, dass die optimale Stufenskalierung von 1/2 abweicht, ist die Stufenskalierung unabhängig von mindestens gleich , sodass wir nur einen Parameter finden müssen, um eine effiziente gradientenbasierte Optimierung zu erhalten planen.

x

$x$

f (x)

$f(x)$

f (x)

$f(x)$

x

$x$

Im Gegensatz dazu hat der Gradient von sehr schlechte globale Eigenschaften zur Optimierung. Wir habenDies multipliziert den perfekt schönen, gut erzogenen Gradienten mit einem Faktor der mit zunehmendem exponentiell abfällt (schneller als) . Bei haben wir bereits , so dass ein Schritt entlang des Gradientenvektors etwa mal zu klein ist. Um eine vernünftige Schrittgröße für das Optimum zu erhalten, müssten wir den Gradienten um den Kehrwert skalieren, eine enorme Konstante $p(x)$

p^{'} (x) = f^{'} (x) p (x) = - 2 x \exp (- x^{2}) .

$p'(x) = f'(x) p(x)= -2x \exp(-x^2).$

- 2 x

$-2x$

\exp (- x^{2})

$\exp(-x^2)$

x

$x$

x = 5

$x = 5$

\exp (- x^{2}) = 1.4 \cdot 10^{- 11}

$\exp(-x^2) = 1.4 \cdot 10^{-11}$

10^{- 11}

$10^{-11}$

\sim 10^{11}

$\sim 10^{11}$ . Solch ein schlecht skalierter Gradient ist für Optimierungszwecke schlimmer als nutzlos - es ist besser, nur einen Einheitsschritt in Aufwärtsrichtung zu versuchen, als unseren Schritt durch Skalieren gegen ! (In vielen Variablen wird ein bisschen nützlicher, da wir zumindest Richtungsinformationen aus dem Gradienten erhalten, aber das Skalierungsproblem bleibt bestehen.)

p^{'} (x)

$p'(x)$

p^{'} (x)

$p'(x)$

Im Allgemeinen gibt es keine Garantie dafür, dass so gute Gradientenskalierungseigenschaften aufweist wie dieses Spielzeugbeispiel, insbesondere wenn wir mehr als eine Variable haben. wird jedoch für so ziemlich jedes nicht triviale Problem viel , viel besser sein als . Dies liegt daran, dass die Wahrscheinlichkeit ein großes Produkt mit einer Reihe von Begriffen ist und das Protokoll dieses Produkt in eine Summe umwandelt, wie in mehreren anderen Antworten angegeben. Vorgesehen sind , die Bedingungen der Wahrscheinlichkeit artig von einer Optimierung Sicht ist ihre Log im Allgemeinen gut erzogene, und die Summe von gut erzogene Funktionen ist brav. Mit brav meine ich $\log p(x)$ $\log p(x)$ $p(x)$ $f''(x)$ ändert sich weder zu schnell noch zu stark, was zu einer nahezu quadratischen Funktion führt, die sich leicht mit Gradientenmethoden optimieren lässt. Die Summe eines Derivats ist die Ableitung der Summe, unabhängig von der Reihenfolge des Derivats, was dazu beiträgt, dass dieser große Haufen von Summenbegriffen eine sehr vernünftige zweite Ableitung hat!

— Paul
quelle

4

+1 In dieser Antwort werden Punkte angesprochen und hervorgehoben, die den Kern der Sache ausmachen.

— whuber

47

Unterlauf

Der Computer verwendet eine begrenzte Fließkommadarstellung von Brüchen, wobei das Multiplizieren so vieler Wahrscheinlichkeiten garantiert sehr nahe bei Null liegt.

Mit haben wir dieses Problem nicht. $log$

— Uri Goren
quelle

3

+1 für numerische Stabilität - dies und die Antwort von Yuril sollten eins sein!

— Alec Teal

1

Sie können das Produkt im Protokollbereich berechnen, so dass es zu einer Summe wird, und es dann zurück übertragen. Oder Sie berechnen was gleich . Numerische Stabilität ist also nicht die Frage.

\frac{\partial \log p}{\partial θ} \cdot p

$\frac{\partial \log p}{\partial \theta} \cdot p$

\frac{\partial p}{\partial θ}

$\frac{\partial p}{\partial \theta}$

— Albert

1

Denken Sie daran, dass das von Ihnen erwähnte die Multiplikation der Wahrscheinlichkeiten aller Ereignisse in der Stichprobe ist und das Element ist, das einem Unterlauf unterliegt.

p

$p$

p

$p$

— Uri Goren

5

@Filip Die Terminologie in diesem Thread ist etwas ungeeignet. Wir diskutieren Wahrscheinlichkeitsdichten , nicht Wahrscheinlichkeiten. Die Dichte ist willkürlich: Sie hängt von den Maßeinheiten ab. Darüber hinaus wird bei ausreichenden Stichprobengrößen die Wahrscheinlichkeitsdichte einer einfachen Stichprobe aus einem parametrischen Modell unter . Bei großen Problemen (mit Millionen von Daten) betragen die Wahrscheinlichkeitsdichten routinemäßig oder weniger. Selbst eine Stichprobe der Größe aus der Standardnormalverteilung hat mit ziemlicher Sicherheit eine Wahrscheinlichkeitsdichte von weniger als .

2^{- 127}

$2^{-127}$

2^{- 1000000}

$2^{-1000000}$

80

$80$

2^{- 127}

$2^{-127}$

— Whuber

4

@FilipHaglund: whuber ist richtig, aber die Tatsache, dass es Dichten ist, ist hier nicht die entscheidende Beobachtung. Wir könnten genauso gut einen diskreten Prozess diskutieren und über tatsächliche Wahrscheinlichkeiten sprechen (und tatsächlich hat das OP nichts gesagt, was diesen Fall ausschließt). Wir sprechen jedoch über Wahrscheinlichkeiten für sehr spezifische Ergebnisse (z. B. eine Million Beobachtungen, die in eine bestimmte Richtung gehen). Ein einzelnes spezifisches Ergebnis ist unwahrscheinlich, aber bei Bayes'schen Inferenzen sind Wahrscheinlichkeitsverhältnisse wichtig, daher müssen wir wissen, wie viel größer eine winzige Wahrscheinlichkeit von einer anderen ist.

— Meni Rosenfeld

34

Der Logarithmus der Wahrscheinlichkeit mehrerer gemeinsamer Wahrscheinlichkeiten vereinfacht sich zu der Summe der Logarithmen der einzelnen Wahrscheinlichkeiten (und die Summenregel ist einfacher als die Produktregel zur Differenzierung).

$\log \left(\prod_i P(x_i)\right) = \sum_i \log \left( P(x_i)\right)$
Der Logarithmus eines Mitglieds der Familie der exponentiellen Wahrscheinlichkeitsverteilungen (einschließlich der allgegenwärtigen Normalen) ist in den Parametern polynomisch (dh die Maximalwahrscheinlichkeit wird bei Normalverteilungen auf die kleinsten Quadrate reduziert ).

$\log\left(\exp\left(-\frac{1}{2}x^2\right)\right) = -\frac{1}{2}x^2$
Die letztere Form ist sowohl numerisch stabiler als auch symbolisch leichter zu unterscheiden als die erstere.
Last but not least ist der Logarithmus eine monotone Transformation, bei der die Orte der Extrema erhalten bleiben (insbesondere sind die geschätzten Parameter der maximalen Wahrscheinlichkeit für die ursprüngliche und die logarithmisch transformierte Formulierung identisch).

— TemplateRex
quelle

5

Grund 2 kann nicht genug betont werden. Um die log-Wahrscheinlichkeit für ein lineares Modell mit Gaußschem Rauschen zu maximieren, müssen Sie nur ein Problem der kleinsten Quadrate lösen, das der Lösung eines linearen Gleichungssystems gleichkommt.

— Paul

Grund 1 und 3 beschreiben nur, wie man es berechnet. Sie können es auf diese Weise berechnen und dann zurückkonvertieren (mit multiplizieren ), um . Es ist eigentlich üblich, im Log-Raum für die numerische Stabilität zu berechnen. Das erklärt jedoch nicht, warum Sie diesen Verlauf verwenden. Grund 4 ist auch kein Grund, warum der Gradient besser ist. Sie können dies auch mit vielen anderen Transformationen tun. Grund 2 ist interessant, aber ich weiß immer noch nicht genau, warum der Gradient eines Polynoms besser ist als der Gradient einer anderen Funktion.

p

$p$

\frac{\partial p}{\partial θ}

$\frac{\partial p}{\partial \theta}$

\log p

$\log p$

— Albert

@ Albert die Ableitung eines Polynoms ist ein Polynom von einem Grad niedriger (insbesondere quadratisch geht zu linear), während Exponentiale nicht einfach unter Differenzierung

— TemplateRex

@ TemplateRex: Ja, das ist klar. Aber ich frage nach den Konvergenzeigenschaften in einer stochastischen Gradientenmethode.

— Albert

25

Es ist viel einfacher, eine Ableitung der Summe der Logarithmen zu nehmen, als eine Ableitung des Produkts, das beispielsweise 100 Multiplikatoren enthält.

— Yurii
quelle

10

Außerdem reduzieren Sie potenzielle numerische Probleme, wenn Begriffe sehr klein oder groß werden.

— Björn

8

Im Gegenteil, das OP bietet implizit eine hervorragende Möglichkeit, die Ableitung eines Produkts nichtnegativer Funktionen zu berechnen: Multiplizieren Sie die Summe der Ableitungen der Protokolle mit dem Produkt selbst. (Diese Multiplikation wird am besten in Form von Logarithmen durchgeführt, wodurch auch die in @ Björns Kommentar erwähnten numerischen Probleme beseitigt werden.) Somit bietet "Leichtigkeit" keine wirkliche Erklärungskraft und befasst sich auch nicht mit der aussagekräftigeren Frage nach dem Vergleich der Gradienten .

— Whuber

10

In der Regel besteht das grundlegendste und einfachste Optimierungsproblem darin, eine quadratische Funktion zu optimieren. Sie können das Optimum einer solchen Funktion leicht finden, egal wo Sie anfangen. Wie sich dies manifestiert, hängt von der jeweiligen Methode ab. Je näher Ihre Funktion an einem Quadrat liegt, desto besser.

Wie von TemplateRex festgestellt, ergeben sich bei einer Vielzahl von Problemen die Wahrscheinlichkeiten, mit denen die Wahrscheinlichkeitsfunktion berechnet wird, aus der Normalverteilung oder werden durch diese angenähert. Wenn Sie also am Protokoll arbeiten, erhalten Sie eine schöne quadratische Funktion. Wenn Sie dagegen an den Wahrscheinlichkeiten arbeiten, haben Sie eine Funktion, die

Ist nicht konvex (der Fluch der Optimierungsalgorithmen überall)
Überquert mehrere Skalen schnell und hat daher einen sehr engen Bereich, in dem die Funktionswerte angeben, wohin Ihre Suche geleitet werden soll.

Welche Funktion würden Sie lieber optimieren, dies oder das ?

(Das war eigentlich ganz einfach; in der Praxis kann Ihre Suche so weit vom Optimum entfernt beginnen, dass die Funktionswerte und Verläufe, auch wenn Sie sie numerisch berechnen könnten, für die Zwecke der Optimierung nicht von 0 zu unterscheiden und nutzlos sind Algorithmus. Aber die Umwandlung in eine quadratische Funktion macht dies zu einem Kinderspiel.)

Beachten Sie, dass dies mit den bereits erwähnten numerischen Stabilitätsproblemen völlig im Einklang steht. Der Grund, warum die Protokollskala erforderlich ist, um mit dieser Funktion zu arbeiten, ist genau derselbe Grund, warum sich die Protokollwahrscheinlichkeit (für Optimierungszwecke und andere Zwecke) viel besser verhält als das Original.

Sie könnten dies auch auf eine andere Weise angehen. Auch wenn es keinen Vorteil für das Protokoll gab (was es gibt) - wir werden die Protokollskala trotzdem für Ableitungen und Berechnungen verwenden. Aus welchem Grund sollte die exp-Transformation nur zur Berechnung des Gradienten angewendet werden? Wir können genauso gut mit dem Protokoll konsistent bleiben.

— Meni Rosenfeld
quelle

@TemplateRex: Das Protokoll einer (abwärts) konvexen positiven Funktion ist konvex, aber das Gegenteil ist nicht wahr. Die Wahrscheinlichkeiten sind nicht konvex, daher müssen sie nicht beibehalten werden, aber das Protokoll ist konvex. Schauen Sie sich die von mir verknüpften Grafiken an - exp (-10x ^ 2) ist offensichtlich nicht konvex, aber -10x ^ 2 ist.

— Meni Rosenfeld

4

Mit erhöhen wir den Dynamikumfang des Optimierungsalgorithmus. Die in -Anwendungen sind normalerweise ein Produkt von Funktionen. Zum Beispiel ist es bei der Maximum-Likelihood-Schätzung das Produkt der Form , wobei Die Dichtefunktion ist, die sein kann größer oder kleiner als 1, übrigens $\ln p$ $p$ $L(x|\theta)=\Pi_{i=1}^n f(x_i|\theta)$ $f(.)$

Wenn also sehr groß ist, dh eine große Stichprobe, ist Ihre Wahrscheinlichkeitsfunktion Normalerweise weit von 1 entfernt: Sie ist entweder sehr klein oder sehr groß, weil es sich um eine Potenzfunktion . $n$ $L(.)$ $L\sim f(.)^n$

Indem wir ein Protokoll erstellen, verbessern wir einfach den Dynamikbereich jedes Optimierungsalgorithmus, sodass dieser auf die gleiche Weise mit extrem großen oder kleinen Werten arbeiten kann.

— Aksakal
quelle

0

Einige nette Antworten wurden bereits gegeben. Aber ich bin kürzlich auf einen neuen gestoßen:

Häufig erhalten Sie einen riesigen Trainingsdatensatz , und Sie definieren ein Wahrscheinlichkeitsmodell , und Sie möchten die Wahrscheinlichkeit für maximieren . Es wird angenommen, dass sie unabhängig sind, dh Sie haben Nun, man oft eine Art von stochastischen tun (Mini-Batch) Gradienten-based Training, das heißt in jedem Schritt für Ihren Verlust , optimieren Sie für , dh $\mathcal{X}$ $p(x|\theta)$ $x \in \mathcal{X}$

p (X | θ) = \prod_{x \in X} p (x | θ) .

$p(\mathcal{X}|\theta) = \prod_{x\in\mathcal{X}} p(x|\theta) .$

L

$L$

L (X^{'} | θ)

$L(\mathcal{X'}|\theta)$

X^{'} \subset X

$\mathcal{X'} \subset \mathcal{X}$

θ^{'} := θ - \frac{\partial \sum_{x \in X^{'}} L (x | θ)}{\partial θ} .

$\theta' := \theta - \frac{\partial \sum_{x\in\mathcal{X'}} L(x|\theta)}{\partial \theta} .$ Nun werden diese stochastischen Schritte additiv akkumuliert. Aus diesem Grund möchten Sie die Eigenschaft, dass im Allgemeinen Dies ist der Fall für

L (X | θ) = \sum_{x \in X} L (x | θ) .

$L(\mathcal{X}|\theta) = \sum_{x\in\mathcal{X}} L(x|\theta) .$

L (x | θ) = - \log p (x | θ) .

$L(x|\theta) = -\log p(x|\theta) .$

— Albert
quelle