Erläuterung der Implementierung von Perceptron-Regel vs. Gradient Descent vs. Stochastic Gradient Descent

Ich habe ein wenig mit verschiedenen Perceptron-Implementierungen experimentiert und möchte sicherstellen, dass ich die "Iterationen" richtig verstehe.

Rosenblatts ursprüngliche Perzeptronregel

Soweit ich weiß, werden bei Rosenblatts klassischem Perzeptron-Algorithmus die Gewichte nach jedem Trainingsbeispiel gleichzeitig über aktualisiert

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

wo hier die ist. Und sowohl Ziel als auch Ist sind begrenzt (-1 oder 1). Ich habe es als 1 Iteration = 1 Durchlauf über die Trainingsprobe implementiert, aber der Gewichtsvektor wird nach jeder Trainingsprobe aktualisiert. $eta$

Und ich berechne den "tatsächlichen" Wert als

$sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d)$

Stochastische Gefälleabfahrt

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

Entspricht jedoch der Perceptron-Regel targetund actualist kein Schwellenwert, sondern ein reeller Wert. Außerdem zähle ich "Iteration" als Pfad über die Trainingsprobe.

Sowohl SGD als auch die klassische Perzeptron-Regel konvergieren in diesem linear trennbaren Fall. Ich habe jedoch Probleme mit der Implementierung des Gradientenabfalls.

Gradientenabstieg

Hier gehe ich über das Trainingsmuster und fasse die Gewichtsänderungen für 1 Durchgang über das Trainingsmuster zusammen und aktualisiere die Gewichte danach, z.

für jedes Trainingsmuster:

$\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i$

...

Nach 1 Durchgang über das Trainingsset:

$\Delta{w} \mathrel{{+}{=}} \Delta{w_{new}}$

Ich frage mich, ob diese Annahme richtig ist oder ob mir etwas fehlt. Ich habe verschiedene (bis zu unendlich kleine) Lernraten ausprobiert, konnte aber nie Anzeichen von Konvergenz erkennen. Ich frage mich also, ob ich etwas falsch verstanden habe. Hier.

Danke, Sebastian

optimization gradient-descent perceptron

Sie haben einige Fehler in Ihren Updates. Ich denke, im Allgemeinen verwechseln Sie den Wert der aktuellen Gewichte mit der Differenz zwischen den aktuellen Gewichten und den vorherigen Gewichten. Sie haben Symbole verstreut, wo es keine geben sollte, und + = wo Sie = haben sollten. $\Delta$

Perceptron:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \eta_t (y^{(i)} - \hat{y}^{(i)}) \pmb{x}^{(i)}$ ,

Dabei ist die Vorhersage des Modells auf dem Trainingsbeispiel. $\hat{y}^{(i)} = \text{sign} ({\pmb{w}^\top\pmb{x}^{(i)}})$ $i^{th}$

Dies kann als stochastische Subgradienten-Abstiegsmethode für die folgende Funktion "Perzeptronverlust" angesehen werden *:

Perzeptronverlust:

$L_{\pmb{w}}(y^{(i)}) = \max(0, -y^{(i)} \pmb{w}^\top\pmb{x}^{(i)})$ .

$\partial L_{\pmb{w}}(y^{(i)}) = \begin{array}{rl} \{ 0 \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} > 0 \\ \{ -y^{(i)} \pmb{x}^{(i)} \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} < 0 \\ [-1, 0] \times y^{(i)} \pmb{x}^{(i)}, & \text{ if } \pmb{w}^\top\pmb{x}^{(i)} = 0 \\ \end{array}$ .

Da bereits Perzeptron ist eine Form von SGD, ich bin nicht sicher , warum die SGD - Update als das Perzeptron Update anders sein sollte. Die Art und Weise, wie Sie den SGD-Schritt mit nicht festgelegten Werten geschrieben haben, führt zu einem Verlust, wenn Sie eine Antwort zu korrekt vorhersagen . Das ist schlecht.

Ihr Batch-Gradientenschritt ist falsch, weil Sie "+ =" verwenden, wenn Sie "=" verwenden sollten. Die aktuellen Gewichte werden für jede Trainingsinstanz hinzugefügt . Mit anderen Worten, wie Sie es geschrieben haben,

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \sum_{i=1}^n \{\pmb{w}^{(t)} - \eta_t \partial L_{\pmb{w}^{(t)}}(y^{(i)}) \}$ .

Was es sein sollte ist:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} - \eta_t \sum_{i=1}^n {\partial L_{\pmb{w}^{(t)}}(y^{(i)}) }$ .

Damit der Algorithmus für jeden Datensatz konvergiert, sollten Sie Ihre Lernrate nach einem Zeitplan verringern, z. B. . $\eta_t = \frac{\eta_0}{\sqrt{t}}$

* Der Perzeptron-Algorithmus ist nicht genau derselbe wie die SSGD für den Perzeptronverlust. Normalerweise ist bei SSGD im Falle eines Gleichstands ( ) , also , damit Sie keinen Schritt machen dürfen. Dementsprechend kann der Perzeptronverlust bei minimiert werden , was unbrauchbar ist. Im Perceptron- Algorithmus müssen Sie jedoch die Bindungen unterbrechen und die Subgradientenrichtung wenn Sie die falsche Antwort wählen. $\pmb{w}^\top\pmb{x}^{(i)} = 0$ $\partial L= [-1, 0] \times y^{(i)} \pmb{x}^{(i)}$ $\pmb{0} \in \partial L$ $\pmb{w} = \pmb{0}$ $-y^{(i)} \pmb{x}^{(i)} \in \partial L$

Sie sind also nicht genau gleich, aber wenn Sie davon ausgehen, dass der Perceptron-Algorithmus für eine Verlustfunktion SGD ist und die Verlustfunktion rückentwickelt wird, ist Perceptron-Verlust das, was Sie am Ende haben.

— Sam Thomson
quelle

Vielen Dank, Sam, und ich entschuldige mich für meine unordentliche Frage. Ich weiß nicht, woher die Deltas kommen, aber das "+ =" war das, was schief gelaufen ist. Ich habe diesen Teil völlig übersehen. Danke für die gründliche Antwort!