Warum werden in der binären Klassifikation des Gaußschen Prozesses Sigmoidfunktionen gegenüber Gaußschen Funktionen bevorzugt?

Ich studiere derzeit "Gaußsche Prozesse für maschinelles Lernen" und in Kapitel 3 heißt es, dass das hintere (Gleichung 3.10) und das latente Die Variable posterior (Gleichung 3.9) kann aufgrund der Sigmoidwahrscheinlichkeiten in (3.9) und der Sigmoidfunktion in (3.10) im Allgemeinen nicht analytisch gelöst werden ). Um zu verhindern, dass Personen die Gleichungen nachschlagen müssen, lauten sie wie folgt: $p(y_*|X,\mathbf{y},\mathbf{x}_*)$ $p(f_*|X,\mathbf{y},\mathbf{x}_*)$

\begin{aligned} p (y_{*} = + 1 | X, y, x_{*}) & = \int σ (f_{*}) p (f_{*} | X, y, x_{*}) d f_{*} & (3.10) \\ p (f_{*} | X, y, x_{*}) & = \int p (f_{*} | X, x_{*}, f) p (f | X, y) d f & (3.9) \end{aligned}

$\begin{align} p(y_*=+1|X,\mathbf{y},\mathbf{x}_*) &= \int\sigma(f_*)\,p(f_*|X,\mathbf{y},\mathbf{x}_*)\,df_*\quad\quad&\mbox{(3.10)} \\ p(f_*|X,\mathbf{y},\mathbf{x}_*) &= \int p(f_*|X,\mathbf{x}_*,\mathbf{f})\,p(\mathbf{f}|X,\mathbf{y})\,d\mathbf{f}&\mbox{(3.9)} \end{align}$

Meine Hauptfrage lautet: Für die binäre Klassifikation mit als Gaußscher Prozess modelliert wurde, warum überhaupt Sigmoidfunktionen (in beiden Gleichungen) anstelle der Gaußschen Funktion Dies würde zu geschlossenen Lösungen für beide Integrale führen. Die Gaußsche Funktion ist nicht wie Sigmoidfunktionen monoton, aber Allgemeinmediziner können Funktionen mit mehreren Wendepunkten erzeugen, sodass Monotonie unnötig erscheint. Um sicherzustellen, dass (3.10) zu konvergiert, wenn weit von den Trainingsdaten entfernt ist, würde es vermutlich ausreichen, dem vorherigen einen Mittelwert zu geben :: $f$

p (y = + 1 | f (x)) = g (f (x)) ≜ \exp {- \frac{f^{2} (x)}{2}} ?

$p(y=+1\,|\,f(\mathbf{x}))=g(f(\mathbf{x}))\triangleq\exp\left\{-\frac{f^2(\mathbf{x})}{2}\right\} \enspace?$

\frac{1}{2}

$\frac{1}{2}$

x_{*}

$\mathbf{x_*}$

p (f | X)

$p(\mathbf{f}|X)$

\begin{aligned} E [f | X] & = ω 1_{n} \\ ω & = \sqrt{- 2 \ln \frac{1}{2}}, \end{aligned}

$\begin{align} \mathbb{E}[\mathbf{f}|X] &= \omega\mathbf{1}_n \\ \omega&=\sqrt{-2\ln\frac{1}{2}} \enspace, \end{align}$ wobei

1_{n}

$\mathbf{1}_n$ ein Vektor von

n

$n$

1

$1$ und

n

$n$ die Anzahl der Trainingsmuster ist, da:

g (ω) = \frac{1}{2} .

$g\left(\omega\right)=\frac{1}{2}\enspace.$

Im Gegensatz zum Verhalten von Sigmoid-Wahrscheinlichkeiten würden Gaußsche Wahrscheinlichkeiten große (positive oder negative) Einträge in $\mathbf{f}$ für negativ markierte Eingabepunkte und kleine Einträge in $\mathbf{f}$ für positiv markierte Punkte bevorzugen .

Würden Gaußsche Funktionen zu Problemen führen, die bei Sigmoiden nicht auftreten? Gibt es Arbeiten, in denen Gaußsche Funktionen in der binären GP-Klassifikation anstelle von Sigmoiden verwendet wurden?

Update, 25. Mai 2017

Bei weiterer Überlegung hilft der oben vorgeschlagene Mittelwert ungleich Null, die Unklarheit darüber aufzulösen, was das Vorzeichen von sein soll ( bevorzugt keines der Vorzeichen; ). Das Auflösen dieser Mehrdeutigkeit scheint wichtig zu sein, denn wenn der Mittelwert des Prior Null war, dann ist der Mittelwert von wäre auch Null unter einer durch definierten Wahrscheinlichkeit , da sowohl der Prior als auch die Wahrscheinlichkeit gerade Funktionen von wären . Dh: $f$ $g$ $g(f(\mathbf{x}))=g(-f(\mathbf{x}))$ $p(\mathbf{f}|X)$ $p(\mathbf{f}|X,\mathbf{y})$ $g$ $\mathbf{f}$

\begin{aligned} p (y | f) & = \prod_{i = 1}^{n} p (y_{i} | f_{i}) \\ p (y_{i} | f_{i}) & = {\begin{cases} g (f_{i}) & , y_{i} = + 1 \\ 1 - g (f_{i}) & , y_{i} = - 1 \end{cases} \\ ∴ E [f | X] = 0 \to p (- f | X, y) & = \frac{p (y | - f) p (- f | X))}{p (y | X)} = \frac{p (y | f) p (f | X))}{p (y | X)} = p (f | X, y) . \end{aligned}

$\begin{align} p(\mathbf{y}|\mathbf{f})&=\prod_{i=1}^n p(\mathbf{y}_i|\mathbf{f}_i) \\ p(\mathbf{y}_i|\mathbf{f}_i) &= \begin{cases} g(\mathbf{f}_i) & ,\;\mathbf{y}_i=+1 \\ 1-g(\mathbf{f}_i) & ,\;\mathbf{y}_i=-1 \end{cases} \\ \therefore \mathbb{E}[\mathbf{f}|X]=\mathbf{0} \enspace\rightarrow\enspace p(-\mathbf{f}|X,\mathbf{y}) &=\frac{p(\mathbf{y}|-\mathbf{f})p(-\mathbf{f}|X))}{p(\mathbf{y}|X)} =\frac{p(\mathbf{y}|\mathbf{f})p(\mathbf{f}|X))}{p(\mathbf{y}|X)} =p(\mathbf{f}|X,\mathbf{y}) \enspace. \end{align}$

Wenn der Mittelwert von Null wäre, würden die Trainingssatzbezeichnungen keine Informationen über die Abfragepunktbezeichnung liefern , also dürfen wir dies eindeutig nicht erlaube das. Zusätzlich zur Definition von sollten wir vielleicht in Richtung positiv durch Angabe der vorherigen relativ kleinen Standardabweichungen, z. B. , wobei ist die Kovarianzfunktion und . Wenn wir dies tun, sollten wir wahrscheinlich auch $p(\mathbf{f}|X,\mathbf{y})$ $\mathbf{y}$ $y_*$ $\mathbb{E}[\mathbf{f}|X]=\omega\mathbf{1}_n$ $p(\mathbf{f}|X,\mathbf{y})$ $\mathbf{f}$ $p(\mathbf{f}|X)$ $\sqrt{k(x,x)}=\frac{\omega}{\beta}$ $k$ $\beta\in[2,3]$ $g$ 's Argument, damit nicht unwahrscheinlich weit vom vorherigen Mittelwert entfernt sein muss, um kleine Werte von zu erzeugen : wobei . $\mathbf{f}$ $g$

g (f (x); s) = \exp {- \frac{f^{2} (x)}{2 s^{2}}},

$g(f(\mathbf{x});s)=\exp\left\{-\frac{f^2(\mathbf{x})}{2s^2}\right\}\enspace,$

s < 1

$s<1$

Wäre dies ein vernünftiger Weg, um das Problem der Mehrdeutigkeit von Zeichen zu beheben? $f$

— Ose
quelle

Antworten:

Ich glaube, sie erwähnen dies in der Fußnote zu Kapitel 3 (erste Seite).

Man kann sich dafür entscheiden, die Diskretion der Zielwerte zu ignorieren und eine Regressionsbehandlung zu verwenden, bei der alle Ziele für die binäre Klassifizierung zufällig ± 1 sind. Dies wird als Klassifizierung der kleinsten Quadrate bezeichnet, siehe Abschnitt 6.5.

Mit Blick auf 6.5 http://www.gaussianprocess.org/gpml/chapters/RW6.pdf erwähnen sie den Vorteil der Verwendung von Sigmoid-Funktionen darin, dass die Ausgaben probabilistisch interpretiert werden können (dh die Wahrscheinlichkeit, dass ein Beispiel eine positive Antwort hat). .

— Max S.
quelle

Die Klassifizierung der kleinsten Quadrate ist nicht das, was ich mir vorgestellt habe, obwohl es eine weitere interessante Alternative für die binäre Klassifizierung ist. Was ich vorhatte, war die GP-Binärklassifizierung genau wie in Kapitel 3 beschrieben durchzuführen, außer dass jedes Auftreten von durch die Gaußsche Funktion oben ersetzt wird (beachten Sie, dass Maximum 1 ist; es ist kein normalisiertes Gaußsches PDF) und das vorherige erhält den in meiner Frage beschriebenen Mittelwert.

σ

$\sigma$

g

$g$

g

$g$

p (f | X)

$p(\mathbf{f}|X)$

— Ose

Das Problem bei diesem Ansatz ist, dass die Anzahl der Terme in exponentiell mit der Anzahl der negativ markierten Punkte im Trainingssatz zunehmen würde, so dass die geschlossene Lösung für (3.9) hätte exponentielle zeitliche Komplexität. Genauer gesagt, wenn wir ohne Verlust der Allgemeinheit annehmen, dass dann Um eine geschlossene Lösung für (3.9) zu erhalten, müssen wir das erste Produkt in eine Summe von (nicht normalisierten) Gaußschen Funktionen erweitern, damit wir jede einzeln integrieren können: $p(\mathbf y|\mathbf f)$

y_{1} = \dots = y_{a} = - 1, y_{a + 1} = \dots = y_{n} = + 1,

$\mathbf y_1=\ldots=\mathbf y_a=-1 \enspace,\enspace \mathbf y_{a+1}=\ldots=\mathbf y_n=+1 \enspace,$

p (y | f) = (\prod_{i = 1}^{a} (1 - g (f_{i}))) \prod_{i = a + 1}^{n} g (f_{i}) .

$p(\mathbf y|\mathbf f) = \left(\prod_{i=1}^a (1-g(\mathbf f_i))\right) \prod_{i=a+1}^n g(\mathbf f_i) \enspace.$

\prod_{i = 1}^{a} (1 - g (f_{i})) = \sum_{I \in P {1, \dots, a}} (- 1)^{| I |} \exp {- \frac{1}{2} \sum_{i \in I} f_{i}^{2}} .

$\prod_{i=1}^a (1-g(\mathbf f_i)) = \sum_{I\in \mathcal{P}\{1,\ldots,a\}} (-1)^{|I|}\exp\left\{ -\frac{1}{2}\sum_{i\in I}\mathbf f^2_i \right\} \enspace.$ Es gibt Mengen in der Potenzmenge der negativ markierten Punktindizes , so dass das Lösen (3.9) das Rechnen beinhalten würde Gaußsche Integrale.

2^{a}

$2^a$

P {1, \dots, a}

$\mathcal P\{1,\ldots,a\}$

{1, \dots, a}

$\{1,\ldots,a\}$

2^{a}

$2^a$

— Ose
quelle