Sie sind in der Tat äquivalent in dem Sinne, dass das eine in das andere umgewandelt werden kann.
Angenommen, Ihre Daten werden durch einen Vektor beliebiger Dimension dargestellt, und Sie haben einen Binärklassifikator dafür erstellt, wobei Sie eine affine Transformation gefolgt von einem Softmax verwenden:x
(z0z1)=(wT0wT1)x+(b0b1),
P(Ci|x)=softmax(zi)=eziez0+ez1,i∈{0,1}.
Lassen Sie uns es in einen äquivalenten binären Klassifikator umwandeln, der ein Sigmoid anstelle des Softmax verwendet. Zunächst müssen wir entscheiden, mit welcher Wahrscheinlichkeit das Sigma ausgegeben werden soll (dies kann für die Klasse oder ). Diese Wahl ist absolut willkürlich und deshalb wähle ich die Klasse . Dann hat mein Klassifikator die Form:C0C1C0
z′=w′Tx+b′,
P(C0|x)=σ(z′)=11+e−z′,
P(C1|x)=1−σ(z′).
Die Klassifikatoren sind äquivalent, wenn die Wahrscheinlichkeiten gleich sind, also müssen wir auferlegen:
σ(z′)=softmax(z0)
Ersetzen von , und durch ihre Ausdrücke in Form von und und Durchführen einiger einfacher Durch algebraische Manipulation können Sie überprüfen, ob die obige Gleichheit genau dann wenn und gegeben sind durch:z0z1z′w0,w1,w′,b0,b1,b′xw′b′
w′=w0−w1,
b′=b0−b1.