Softmax-Regressionsbias und vorherige Wahrscheinlichkeiten für ungleiche Klassen

Ich verwende die Softmax-Regression für ein Klassifizierungsproblem mit mehreren Klassen. Ich habe nicht für jede Klasse die gleichen vorherigen Wahrscheinlichkeiten.

Ich weiß aus der logistischen Regression (Softmax-Regression mit 2 Klassen), dass die vorherigen Wahrscheinlichkeiten der Klassen implizit zum Bias addiert werden ( $\log(p_0/p_1)$ ).

Normalerweise entferne ich diesen Begriff manuell aus der Verzerrung.

Meine Frage ist, was ist der entsprechende Begriff in Softmax-Regressionsbias?

Vielen Dank.

logistic prior unbalanced-classes

— Ran
quelle

$W,\textbf{b}$

y \sim Cat (σ (W x + b)); σ_{i} (z) = \frac{\exp z_{i}}{\sum_{j} \exp z_{j}} .

$\DeclareMathOperator{cat}{Cat} \newcommand{\norm}[1]{\left\| #1 \right\|} \newcommand{vsigma}{{\boldsymbol\sigma}} \newcommand{vx}{{\textbf{x}}} \newcommand{vb}{{\textbf{b}}} \newcommand{vz}{{\textbf{z}}} y\sim\cat(\vsigma(W\vx+\vb)); \;\;\;\sigma_i(\vz)=\frac{\exp z_i}{\sum_j\exp z_j}.$

b

$\vb$

p (x, y | W, b) \propto p (y | W, b, x)

$p(\vx, y|W,\vb)\propto p( y|W,\vb,\vx)$

W

$W$ mit kleinen Werten nahe 0 und dass eine Bezeichnung in , also: Addiert die Log-Wahrscheinlichkeiten für alle angenommenen unabhängigen Beispiele , eine gute Initialisierung für würde die ungefähre Gesamtwahrscheinlichkeit des Datenprotokolls minimieren: Der Gradient des obigen wrt ist , mit

y

$y$

[K]

$[K]$

W x \approx 0

$W\vx\approx 0$

\log p (y | W, b, x) = \sum_{k = 1}^{K} 1_{y = k} \log σ_{k} (W x + b) \approx \log σ_{y} (b)

$\log p( y|W,\vb,\vx)=\sum_{k=1}^K1_{y=k}\log \sigma_k(W\vx + \vb)\approx\log\sigma_y(\vb)$

{(x_{i}, y_{i})}_{i = 1}^{n}

$\{(\vx_i,y_i)\}_{i=1}^n$

b

$\vb$

\sum_{i = 1}^{n} \log σ_{y_{i}} (b) = \sum_{i = 1}^{n} b_{y_{i}} - n \log \sum_{k = 1}^{K} \exp b_{k}

$\newcommand{vc}{{\textbf{c}}} \sum_{i=1}^n\log\sigma_{y_i}(\vb)=\sum_{i=1}^nb_{y_i}-n\log\sum_{k=1}^K\exp b_k$

b

$\vb$

c - n σ (b)

$\vc-n\vsigma(\vb)$

c \in N^{K}

$\vc\in\mathbb{N}^K$ der Zählvektor jeder Klasse. Die obige Funktion ist ebenfalls konkav, siehe die Frage hier zu Smooth Max für einen Beweis.

Die beiden obigen Tatsachen implizieren, dass ein Maximum verfügbar ist, wenn . Dies legt wiederum nahe, dass eine brauchbare Initialisierung für den ten Term des Bias tatsächlich , der Anteil der markierten Beispiele im Trainingssatz (auch bekannt als Randstatistik). Möglicherweise sehen Sie, dass Sie eine beliebige Konstante hinzufügen und eine weitere wahrscheinlichkeitsmaximierende Verzerrung erzielen können. Ein großer Umfang würde jedoch das Lernen von . Die Beziehung zur logistischen Tendenz ist kein Zufall - in diesem Tutorial wird die Ähnlichkeit erörtert. $\vsigma(\vb)=\vc/n$ $i$ $b_i$ $\vb$ $\log p_i$ $i$ $\vb$ $W$

— VF1
quelle