Warum minimieren wir die negative Wahrscheinlichkeit, wenn sie der Maximierung der Wahrscheinlichkeit entspricht?


47

Diese Frage hat mich lange Zeit verwirrt. Ich verstehe die Verwendung von "log" zur Maximierung der Wahrscheinlichkeit, daher frage ich nicht nach "log".

Meine Frage ist, warum wir diese NLL erfunden haben, da die Maximierung der Protokollwahrscheinlichkeit der Minimierung der "negativen Protokollwahrscheinlichkeit" (NLL) entspricht. Warum nutzen wir die "positive Wahrscheinlichkeit" nicht die ganze Zeit? Unter welchen Umständen wird NLL bevorzugt?

Ich habe hier eine kleine Erklärung gefunden. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , und es scheint die offensichtliche Gleichwertigkeit in der Tiefe zu erklären, löst aber nicht meine Verwirrung.

Jede Erklärung wird geschätzt.


3
Die maximale Protokollwahrscheinlichkeit ist keine Verlustfunktion, ihr Negativ entspricht jedoch den Erläuterungen im Artikel im letzten Abschnitt. Es ist eine Frage der Konsistenz. Angenommen, Sie haben ein intelligentes Lernsystem, das verschiedene Verlustfunktionen für ein bestimmtes Problem ausprobiert. Der Satz von Verlustfunktionen enthält quadrierten Verlust, absoluten Verlust usw. Um eine konsistente Liste zu erhalten, fügen Sie der Liste der Verlustfunktionen eine negative Log-Wahrscheinlichkeit hinzu.
Cagdas Ozgenc

Antworten:


41

Dies ist eine alternative Antwort: Optimierer in Statistikpaketen minimieren normalerweise das Ergebnis einer Funktion. Wenn Ihre Funktion zuerst den Wahrscheinlichkeitswert angibt, ist es bequemer, den Logarithmus zu verwenden, um den von der Wahrscheinlichkeitsfunktion zurückgegebenen Wert zu verringern. Da dann die Log-Wahrscheinlichkeit und die Likelihood-Funktion den gleichen ansteigenden oder abfallenden Trend aufweisen, können Sie die negative Log-Wahrscheinlichkeit minimieren , um die maximale Wahrscheinlichkeitsschätzung der Funktion, die Sie testen , tatsächlich durchzuführen . Siehe zum Beispiel die nlminbFunktion in R hier


10
Ich würde sagen, das geht sogar über Optimierer hinaus und ist in den Konventionen der Optimierungstheorie verwurzelt. Es scheint, als würde die Minimierung häufig als Standardoptimierung angesehen. Betrachten wir zum Beispiel den Namen "konvexe Optimierung", der mit der Minimierung einhergeht, aber genauso gut als "konkave Optimierung" bezeichnet werden könnte.
Bitweise

48

Optimierer minimieren normalerweise eine Funktion, daher verwenden wir eine negative Log-Wahrscheinlichkeit als Minimierung, die der Maximierung der Log-Wahrscheinlichkeit oder der Wahrscheinlichkeit selbst entspricht.

Der Vollständigkeit halber möchte ich erwähnen, dass der Logarithmus eine monotone Funktion ist. Das Optimieren einer Funktion ist also dasselbe wie das Optimieren ihres Logarithmus. Das Durchführen der log-Transformation der Wahrscheinlichkeitsfunktion erleichtert die Handhabung (Multiplikation wird zu Summen) und dies ist auch numerisch stabiler. Dies liegt daran, dass die Wahrscheinlichkeit sehr gering sein kann. Wenn Sie eine log-Transformation durchführen, werden diese kleinen Zahlen in größere negative Werte konvertiert, mit denen eine Maschine mit endlicher Präzision besser umgehen kann.


4
Als Beispiel stoße ich bei meiner Arbeit häufig auf Log-Wahrscheinlichkeiten von -40.000. In diesem Regime ist es numerisch unmöglich, mit der Wahrscheinlichkeit selbst zu arbeiten.
Will Vousden

3

Hier bedeutet Minimieren, dass der Abstand zwischen zwei Verteilungen auf den niedrigsten Wert verringert wird : der Bernoulli-Zielverteilung und der generierten Ergebnisverteilung. Wir messen den Abstand zweier Verteilungen mit der Kullback-Leibler-Divergenz (auch relative Entropie genannt) und aufgrund der großen Zahlentheorie ist die Minimierung der KL-Divergenz gleichbedeutend mit der Minimierung der Kreuzentropie (entweder Mehrklassen-Kreuzentropie, siehe hier oder binäre Klassifizierung, siehe hier und hier ).

Somit

Das Maximieren der Protokollwahrscheinlichkeit entspricht dem Minimieren der "negativen Protokollwahrscheinlichkeit".

kann übersetzt werden in

Das Maximieren der logarithmischen Wahrscheinlichkeit entspricht dem Minimieren des Abstands zwischen zwei Verteilungen, ist also gleichbedeutend mit dem Minimieren der KL-Divergenz und dann der Querentropie.

Ich denke, es ist ziemlich intuitiv geworden.


1

Die Antwort ist einfacher als Sie vielleicht denken. Es ist die Konvention, dass wir die Optimierungszielfunktion als "Kostenfunktion" oder "Verlustfunktion" bezeichnen und sie daher eher minimieren als maximieren möchten, und daher wird die negative logarithmische Wahrscheinlichkeit gebildet und nicht die positive Wahrscheinlichkeit in Ihrem Fall Wort. Technisch sind beide aber richtig. Übrigens, wenn wir etwas maximieren wollen, nennen wir es normalerweise "Utility-Funktion" und daher ist das Ziel, sie zu maximieren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.