Wie wird die Softmax-Einheit abgeleitet und was bedeutet dies?


8

Ich versuche zu verstehen, warum die Softmax-Funktion als solche definiert ist:

ezjΣk=1Kezk=σ(z)

Ich verstehe, wie dies die Daten normalisiert und richtig auf einen bestimmten Bereich (0, 1) abbildet, aber der Unterschied zwischen den Gewichtswahrscheinlichkeiten variiert eher exponentiell als linear. Gibt es einen Grund, warum wir dieses Verhalten wollen?

Auch diese Gleichung scheint eher willkürlich und ich bin der Meinung, dass eine große Familie von Gleichungen unsere Anforderungen erfüllen könnte. Ich habe online keine Ableitungen gesehen, daher gehe ich davon aus, dass es sich lediglich um eine Definition handelt. Warum nicht eine andere Definition wählen, die die gleichen Anforderungen erfüllt?


2
Vielleicht möchten Sie Google logistische Regression und multinomiale Regression
Seanv507

Suchen Sie auch diese Seite!
kjetil b halvorsen

Antworten:


5

Die kategoriale Verteilung ist die minimale angenommene Verteilung über die Unterstützung "einer endlichen Menge sich gegenseitig ausschließender Ergebnisse", wenn die ausreichende Statistik "welches Ergebnis passiert ist" vorliegt. Mit anderen Worten, die Verwendung einer anderen Verteilung wäre eine zusätzliche Annahme. Ohne Vorkenntnisse müssen Sie für diese Unterstützung eine kategoriale Verteilung und eine ausreichende Statistik annehmen. Es ist eine exponentielle Familie. (Alle angenommenen Mindestverteilungen für eine bestimmte Unterstützung und ausreichende Statistik sind exponentielle Familien.)

Der richtige Weg, zwei Überzeugungen basierend auf unabhängigen Informationen zu kombinieren, ist das punktweise Produkt der Dichte, wobei sichergestellt wird, dass frühere Informationen, die in beiden Überzeugungen enthalten sind, nicht doppelt gezählt werden. Für eine exponentielle Familie ist diese Kombination die Addition natürlicher Parameter.

Die Erwartungsparameter sind die erwarteten Werte von wobei die ist, mit der Sie das Ergebnis beobachtet haben . Dies ist die richtige Parametrisierung, um eine Reihe von Beobachtungen in eine maximale Wahrscheinlichkeitsverteilung umzuwandeln. Sie durchschnittlich einfach in diesem Raum. Dies ist, was Sie wollen, wenn Sie Beobachtungen modellieren.x k kxkxkk

Die multinomiale Logistikfunktion ist die Umwandlung von natürlichen Parametern in Erwartungsparameter der kategorialen Verteilung. Sie können diese Konvertierung als Gradienten des Log-Normalisierers in Bezug auf natürliche Parameter ableiten.

Zusammenfassend lässt sich sagen, dass die multinomiale Logistikfunktion aus drei Annahmen besteht: einer Unterstützung, einer ausreichenden Statistik und einem Modell, dessen Überzeugung eine Kombination unabhängiger Informationen ist.


2

Ich weiß, dass dies ein später Beitrag ist, aber ich habe das Gefühl, dass es immer noch sinnvoll wäre, diejenigen zu rechtfertigen, die zufällig hier landen.

Du liegst nicht ganz falsch. Es ist bis zu einem gewissen Grad willkürlich, aber vielleicht ist willkürlich das falsche Wort. Es ist eher eine Designwahl. Lassen Sie mich erklären.

Es stellt sich heraus, dass der Softmax tatsächlich die Verallgemeinerung der Sigmoid-Funktion ist, bei der es sich um eine Bernoulli-Ausgabeeinheit (Ausgang 0 oder 1) handelt:

[1+exp(z)]1

Aber woher kommt die Sigmoid-Funktion?

Nun, es stellt sich heraus, dass viele verschiedene Wahrscheinlichkeitsverteilungen, einschließlich der Bernoulli-, Poisson-Verteilung, Gaußschen usw., einem sogenannten Generalized Linear Model (GLM) folgen. Das heißt, sie können ausgedrückt werden in Form von:

P(y;η)=b(y)exp[ηTT(y)a(η)]

Ich werde nicht auf all diese Parameter eingehen, aber Sie können dies sicherlich untersuchen.

Beachten Sie das folgende Beispiel, wie sich eine Bernoulli-Verteilung in der GLM-Familie befindet:

P(y=1)=ϕP(y=0)=1ϕP(y)=ϕy(1ϕ)1y=exp(ylog(ϕ)+(1y)log(1ϕ))=exp(ylog(ϕ)+log(1ϕ)ylog(1ϕ))=exp(ylog(ϕ1ϕ)+log(1ϕ))

Sie können das in diesem Fall sehen,

b(y)=1T(y)=yη=log(ϕ1ϕ)a(η)=log(1ϕ)

Beachten Sie, was passiert, wenn wir nach in Bezug auf lösen :ϕη

η=log(ϕ1ϕ)eη=ϕ1ϕeη=1ϕϕ=1ϕ1eη+1=1ϕϕ=[exp(η)+1]1

Um also , nehmen wir das Sigmoid von . Die Wahl des Designs kommt ins Spiel, wenn wir annehmen, dass , wobei Ihre Gewichte und Ihre Daten sind, die wir beide als annehmen . Wenn wir diese Annahme machen, können wir um zu approximieren .ϕ=P(y=1)ηη=wTxwxRnwϕ

Wenn Sie denselben Prozess für eine Multinoulli-Distribution durchführen würden, würden Sie am Ende die Softmax-Funktion ableiten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.