Definition der Softmax-Funktion

Diese Frage wird unter stats.stackexchange.com/q/233658 beantwortet

Das logistische Regressionsmodell für die Klassen {0, 1} lautet

P (y = 1 | x) = \frac{\exp (w^{T} x)}{1 + \exp (w^{T} x)} P (y = 0 | x) = \frac{1}{1 + \exp (w^{T} x)}

$\mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)}$

Diese Wahrscheinlichkeiten summieren sich eindeutig zu 1. Durch Setzen von wir auch die logistische Regression als definieren $w = \beta_1 - \beta_0$

P (y = c | x) = \frac{\exp (β_{c}^{T} x)}{\exp (β_{0}^{T} x) + \exp (β_{1}^{T} x)} \forall c \in {0, 1}

$\mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \exp(\beta_1^T x)} \quad \forall \; c \in \{0, 1\}$

Die zweite Definition wird jedoch selten verwendet, da die Koeffizienten und nicht eindeutig sind. Mit anderen Worten, das Modell ist nicht identifizierbar, genau wie die lineare Regression mit zwei Variablen, die Vielfache voneinander sind. $\beta_0$ $\beta_1$

Frage

Warum wird beim maschinellen Lernen das Softmax-Regressionsmodell für die Klassen {0, 1, ..., K - 1} normalerweise wie folgt definiert?

P (y = c | x) = \frac{\exp (β_{c}^{T} x)}{\exp (β_{0}^{T} x) + \dots + \exp (β_{K - 1}^{T} x)} \forall c \in {0, \dots, K - 1}

$\mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \dots + \exp(\beta_{K-1}^T x)} \quad \forall \; c \in \{0, \dots, K-1\}$

Sollte es nicht stattdessen sein

\begin{aligned} P (y = c | x) & = \frac{\exp (w_{c}^{T} x)}{1 + \exp (w_{1}^{T} x) + \dots + \exp (w_{K - 1}^{T} x)} \forall c \in {1, \dots, K - 1} \\ P (y = 0 | x) & = \frac{1}{1 + \exp (w_{1}^{T} x) + \dots + \exp (w_{K - 1}^{T} x)} \end{aligned}

$\begin{align*} \mathbb{P} (y = c \;|\; x) &= \frac{\exp(w_c^T x)}{1 + \exp(w_1^T x) + \dots + \exp(w_{K-1}^T x)} \quad \forall \; c \in \{1, \dots, K-1\} \\ \mathbb{P} (y = 0 \;|\; x) &= \frac{1}{1 + \exp(w_1^T x) + \dots + \exp(w_{K-1}^T x)} \end{align*}$

Randnotiz: In der Statistik wird die Softmax-Regression als multinomiale logistische Regression bezeichnet, und die Klassen sind {1, ..., K}. Ich finde das etwas umständlich, denn wenn K = 2 ist, sind die Klassen {1, 2} anstelle von {0, 1}, so dass es nicht gerade eine Verallgemeinerung der logistischen Regression ist.

— Farmer
quelle

Wird es normalerweise so definiert? Können Sie auf eine Referenz verweisen?

— The Laconic

@TheLaconic Siehe die Definition von Softmax unter scikit-learn.org/stable/modules/neural_networks_supervised.html und www.tensorflow.org/versions/r1.1/get_started/mnist/beginners

— Bauer

OK. Ich habe gefragt, weil ich noch nie so definierte MNL-Regressionsmodelle gesehen habe. Aber anscheinend ist es im Zusammenhang mit neuronalen Netzen "üblich" - und jetzt habe ich die gleiche Frage wie Sie.

— The Laconic

Ich bin mir nicht sicher, wie ich eine Frage "Sollte es nicht X sein" beantworten soll. Die gegebene Definition ist differenzierbar und definiert eine Wahrscheinlichkeitsverteilung (Summen zu 1). Es scheint, dass dies die wichtigen Teile sind. Warum sollte es nicht so sein, anstatt der anderen?

— Kbrose

@kbrose wegen der mangelnden Identifizierbarkeit

— Taylor

Ja, Sie haben Recht, dass es an Identifizierbarkeit mangelt, es sei denn, einer der Koeffizientenvektoren ist fest. Es gibt einige Gründe, die dies nicht erwähnen. Ich kann nicht sagen, warum sie dieses Detail weglassen, aber hier ist eine Erklärung, was es ist und wie es behoben werden kann.

Beschreibung

$y_i \in \{0, 1, 2, \ldots, K-1\}$ $\mathbf{x}_i^\intercal \in \mathbb{R}^p$ $i$ $1$ $n$ $K$ $p$ $\boldsymbol{\beta}^0, \boldsymbol{\beta}^1, \ldots, \boldsymbol{\beta}^{K-1}$

Die Softmax-Funktion ist in der Tat definiert als das schöne Eigenschaften wie Differenzierbarkeit hat, summiert sich zu usw.

softmax (z)_{i} = \frac{\exp (z_{i})}{\sum_{l = 0}^{K - 1} \exp (z_{l})},

$\text{softmax}(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_{l=0}^{K-1}\exp(z_l)},$

1

$1$

Die multinomiale logistische Regression verwendet die Softmax-Funktion für jede Beobachtung auf dem Vektor $i$

[\begin{matrix} x_{i}^{⊺} β^{0} \\ x_{i}^{⊺} β^{1} \\ ⋮ \\ x_{i}^{⊺} β^{K - 1}, \end{matrix}]

$\begin{bmatrix} \mathbf{x}_i^\intercal \boldsymbol{\beta}^0 \\ \mathbf{x}_i^\intercal \boldsymbol{\beta}^1 \\ \vdots \\ \mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}, \end{bmatrix}$

was bedeutet

[\begin{matrix} P (y_{i} = 0) \\ P (y_{i} = 1) \\ ⋮ \\ P (y_{i} = K - 1) \end{matrix}] = [\begin{matrix} \frac{\exp [x_{i}^{⊺} β^{0}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ \frac{\exp [x_{i}^{⊺} β^{1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} β^{K - 1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \end{matrix}] .

$\begin{bmatrix} P(y_i = 0) \\ P(y_i = 1) \\ \vdots \\ P(y_i = K-1) \end{bmatrix} = \begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^0] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^1] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \end{bmatrix}.$

Das Problem

Die Wahrscheinlichkeit ist jedoch nicht identifizierbar, da mehrere Parametersammlungen dieselbe Wahrscheinlichkeit ergeben. Wenn Sie beispielsweise alle Koeffizientenvektoren um denselben Vektor wird dieselbe Wahrscheinlichkeit erzeugt. Dies ist ersichtlich, wenn Sie den Zähler und Nenner jedes Elements des Vektors mit einer Konstanten multiplizieren. Daran ändert sich nichts: $\mathbf{c}$ $\exp[-\mathbf{x}_i^\intercal \mathbf{c}]$

[\begin{matrix} \frac{\exp [x_{i}^{⊺} β^{0}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ \frac{\exp [x_{i}^{⊺} β^{1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} β^{K - 1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \end{matrix}] = [\begin{matrix} \frac{\exp [x_{i}^{⊺} (β^{0} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \\ \frac{\exp [x_{i}^{⊺} (β^{1} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} (β^{K - 1} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \end{matrix}] .

$\begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^0] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^1] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \end{bmatrix} = \begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^0-\mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k-\mathbf{c})] } \\ \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^1-\mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k-\mathbf{c})] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^{K-1} - \mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k -\mathbf{c}) ] } \end{bmatrix}.$

Es reparieren

Um dies zu beheben, müssen Sie die Parameter einschränken. Das Reparieren eines von ihnen führt zur Identifizierbarkeit, da das Verschieben aller nicht mehr zulässig ist.

Es gibt zwei gängige Möglichkeiten:

setze , was (du erwähnst dieses), und $\mathbf{c} = \boldsymbol{\beta}^0$ $\boldsymbol{\beta}^0 = \mathbf{0}$
setze , was . $\mathbf{c} = \boldsymbol{\beta}^{K-1}$ $\boldsymbol{\beta}^{K-1} = \mathbf{0}$

Ignoriere es

Manchmal ist die Einschränkung jedoch nicht erforderlich. Zum Beispiel, wenn Sie für die Menge einen Konfidenzintervall interessiert waren bei der Bildung , dann ist dies das gleiche wie , so Folgerung auf Relative Mengen spielen keine Rolle. Wenn Ihre Aufgabe eine Vorhersage anstelle einer Parameterinferenz ist, bleiben Ihre Vorhersagen unberührt, wenn alle Koeffizientenvektoren geschätzt werden (ohne einen einzuschränken). $\beta^0_1 - \beta^2_1$ $\beta^0_1 - c - [\beta^2_1-c]$

— Taylor
quelle