Scharnierverlust mit One-vs-All-Klassifikator

9

Ich betrachte derzeit die uneingeschränkte Urform des Ein-gegen-Alles-Klassifikators

\sum_{ich = 1}^{{N.}_{ich}} \sum_{\binom{k = 1,}{k \neq y_{ich}}}^{{N.}_{K.}} L. (1 + w_{k} \cdot x_{ich} - - w_{y_{ich}} \cdot x_{ich})

$\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i})$

wo

$N_I$ ist die Anzahl der Instanzen, ist die Anzahl der Klassen, ist die Anzahl der Merkmale, ist eine Datenmatrix, ist ein Vektor von Klassenbezeichnungen, ist eine Matrix, wobei jede entspricht Zu den Gewichten für die Hyperebene, die eine Klasse vom Rest ist eine beliebige Verlustfunktion.
$N_K$
$N_F$
$X$ $N_K \times N_F$
$y$
$W$ $N_K \times N_I$
$L$

Nach meinem Verständnis versucht die obige Funktion, für jede Klasse eine Hyperebene zu finden, die den Abstand zwischen den Stichproben innerhalb der zugeordneten Klasse zu allen anderen Stichproben maximiert. Wenn die Hyperebenen korrekt positioniert sind, sollte immer negativ sein, sollte immer positiv sein und unsere Verlustfunktion sollte zurückkehren ziemlich niedrig. $\mathbf{w_k}\cdot\mathbf{x_i}$ $\mathbf{w_{y_i}}\cdot\mathbf{x_i}$

Ich versuche dies mit dem Scharnierverlust umzusetzen, von dem ich glaube, dass er in diesem Fall enden wird

$\max(0,1+\mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}$ ).

In den oben genannten Fällen konnten wir jedoch nicht zu einer Situation führen, in der die Hyperebenen alle Stichproben als zu jeder Klasse gehörig klassifizieren. Wenn wir zum Beispiel die Hyperebene betrachten, die Klasse 1 von allen anderen Klassen trennt, vorausgesetzt, dass dann ist der entstandene Verlust 0, obwohl als die falsche Klasse klassifiziert wurde. $1+\mathbf{w_k}\cdot\mathbf{x_i}<\mathbf{w_{y_i}}\cdot\mathbf{x_i}$ $\mathbf{x_i}$

Wo bin ich falsch gelaufen? Oder spielt es keine Rolle, ob negativ oder positiv ist, vorausgesetzt, hat eine höhere Punktzahl? Ich habe das Gefühl, dass meine Verwendung der hier beschriebenen Scharnierfunktion falsch ist, aber meine heutige Verwendung von Google hat nur zu mehr Verwirrung geführt. $\mathbf{w_k}\cdot\mathbf{x_i}$ $\mathbf{w_{y_i}}\cdot\mathbf{x_i}$

Warum gibt es in der obigen Funktion eine 1? Ich würde denken, dass es wenig Auswirkungen haben würde.

classification loss-functions

— brcs
quelle

2

Ihr Beitrag scheint größtenteils korrekt zu sein.

Die Art und Weise, wie lineare Klassifikatoren für mehrere Klassen eingerichtet werden, besteht darin, dass ein Beispiel, , von der Hyperebene klassifiziert wird, die die höchste Punktzahl ergibt: . Es spielt keine Rolle, ob diese Werte positiv oder negativ sind. $x$ $\underset{k}{\mathrm{argmax}\,} w_k \cdot x$

Wenn der Scharnierverlust für ein bestimmtes Beispiel Null ist, bedeutet dies, dass das Beispiel korrekt klassifiziert ist. Um dies zu sehen, ist der Scharnierverlust Null, wenn . Dies ist eine stärkere Bedingung als , was darauf hinweisen würde, dass Beispiel korrekt als klassifiziert wurde . $1+w_{k}\cdot x_i<w_{y_i}\cdot x_i \;\forall k$ $w_{k}\cdot x_i<w_{y_i}\cdot x_i \;\forall k$ $i$ $y_i$

Die 1 im Scharnierverlust bezieht sich auf den "Rand" des Klassifikators.

Der Scharnierverlust ermutigt die Bewertungen aus der richtigen Klasse, , nicht nur höher zu sein als die Bewertungen aus allen anderen Klassen, , sondern um einen additiven Faktor höher als diese Bewertungen zu sein. $w_{y_i}\cdot x_i$ $w_k\cdot x_i$

Wir können den Wert 1 für den Rand verwenden, da der Abstand eines Punktes von einer Hyperebene durch die Größe der linearen Gewichte skaliert wird: ist der Abstand von von der Hyperebene mit normaler Vektor . Da die Gewichte für alle Punkte im Dataset gleich sind, ist es nur wichtig, dass der Skalierungsfaktor 1 für alle Datenpunkte gleich ist. $\frac{w}{|w|}\cdot x$ $x$ $w$

Es kann auch das Verständnis erleichtern, wenn Sie die Verlustfunktion als parametrisieren . Sie haben derzeit die Verlustfunktionen als Funktion des linearen Randes, und dies ist nicht unbedingt der Fall. $L(x,y;w)$

— user1149913
quelle

Willkommen auf der Website. Sie können hier verwenden. Um es richtig zu rendern, wickeln Sie es einfach in einzelne Dollarzeichen für Inline-Mathematik (genau wie in einem Dokument) und doppelte Dollarzeichen für Anzeigemathematik ein. Sehen Sie sich den Versionsverlauf an, wenn Sie weitere Hilfe benötigen.

L A T E X

$\LaTeX$

L A T E X

$\LaTeX$

— Kardinal

Ich vermute auch, dass Sie beabsichtigt haben, \cdotanstelle von zu verwenden \dot. Wenn ja, nehmen Sie diese Änderungen bitte vor. Prost. :)

— Kardinal

0

In der Verlustfunktion fehlt das binäre Ergebnis / Label (das für eine bestimmte Klasse den Wert +1 und -1 annehmen kann): max (0, 1 - y * (w * x)) (siehe Details unten).

Insgesamt denke ich, dass die obige Spezifikation (sowohl die Notation als auch die Verlustfunktion) One-vs-All überkompliziert - stattdessen könnte man einfach eine bestimmte Klasse nehmen, + 1 / -1-Ergebnis y sowie die entsprechende Datenmatrix X konstruieren (mit Nf-Spalten und Ni-Zeilen) und Parametervektor w für diese Klasse und schreiben Sie die entsprechende Gelenkverlustfunktion für einen klassischen binären Klassifikator für diese Klasse: sum (max (0, 1 - y * (w * x))) wobei Die Summe bezieht sich auf alle Dateninstanzen. X ist eine Zeile von X, die einer bestimmten Instanz entspricht. Man braucht "1" in der Gelenkverlustfunktion (da y * (w * x)> = 1 der korrekten Modellvorhersage entspricht, was die Verlustfunktion betrifft).

— Jewgeni
quelle