Von der Perceptron-Regel zum Gradientenabstieg: Wie unterscheiden sich Perceptrons mit einer Sigmoid-Aktivierungsfunktion von der logistischen Regression?

21

Im Wesentlichen ist meine Frage, dass in mehrschichtigen Perzeptronen Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet werden. So dass in der Aktualisierungsregel wird wie folgt berechnet $\hat{y}$

\hat{y} = \frac{1}{1 + \exp (- w^{T} x_{ich})}

$\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$

Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression?

Ich würde sagen , dass eine einlagige Perceptron sigmoid auf eine logistische Regression in dem Sinne äquivalent , daß sowohl die Verwendung $\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$ in der Aktualisierungsregel. Auch beiden $\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})$ in der Vorhersage. Bei mehrschichtigen Perzeptronen wird die Sigma-Aktivierungsfunktion jedoch verwendet, um im Gegensatz zur logistischen Regression und einem einschichtigen Perzeptron eine Wahrscheinlichkeit und kein Ein-Aus-Signal zurückzugeben.

Ich denke, die Verwendung des Begriffs "Perceptron" ist etwas mehrdeutig. Lassen Sie mich daher einige Hintergrundinformationen liefern, die auf meinem derzeitigen Verständnis von einschichtigen Perceptrons basieren:

Klassische Perzeptronregel

Erstens das klassische Perzeptron von F. Rosenblatt, bei dem wir eine Stufenfunktion haben:

Δ w_{d} = η (y_{ich} - \hat{y_{ich}}) x_{ich d} y_{ich}, \hat{y_{ich}} \in {- 1, 1}

$\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\}$

um die Gewichte zu aktualisieren

w_{k} : = w_{k} + Δ w_{k} (k \in {1, . . ., d})

$w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\})$

So dass wird wie folgt berechnet $\hat{y}$

\hat{y} = Zeichen (w^{T} x_{ich}) = Zeichen (w_{0} + w_{1} x_{ich 1} + . . . + w_{d} x_{ich d})

$\hat{y} = \operatorname{sign}(\mathbf{w}^T\mathbf{x}_i) = \operatorname{sign}(w_0 + w_1x_{i1} + ... + w_dx_{id})$

Gradientenabstieg

Mit dem Gradientenabstieg optimieren (minimieren) wir die Kostenfunktion

J (w) = \sum_{ich} \frac{1}{2} (y_{ich} - \hat{y_{ich}})^{2} y_{ich}, \hat{y_{ich}} \in R

$J(\mathbf{w}) = \sum_{i} \frac{1}{2}(y_i - \hat{y_i})^2 \quad \quad y_i,\hat{y_i} \in \mathbb{R}$

wo wir "reelle" Zahlen haben, sehe ich dies im Grunde genommen analog zur linearen Regression mit dem Unterschied, dass unsere Klassifizierungsausgabe auf einen Schwellenwert begrenzt ist.

Hier machen wir einen Schritt in die negative Richtung des Verlaufs, wenn wir die Gewichte aktualisieren

Δ w_{k} = - η \frac{\partial J}{\partial w_{k}} = - η \sum_{ich} (y_{ich} - \hat{y_{ich}}) (- x_{ich k}) = η \sum_{ich} (y_{ich} - \hat{y_{ich}}) x_{ich k}

$\Delta w_k = - \eta \frac{\partial J}{\partial w_k} = - \eta \sum_i (y_i - \hat{y_i})(- x_{ik}) = \eta \sum_i (y_i - \hat{y_i})x_{ik}$

Aber hier haben wir anstelle von $\hat{y} = \mathbf{w}^T\mathbf{x}_i$ $\hat{y} = \operatorname{sign}(\mathbf{w}^T\mathbf{x}_i)$

w_{k} : = w_{k} + Δ w_{k} (k \in {1, . . ., d})

$w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\})$

Außerdem berechnen wir die Summe der quadratischen Fehler für einen vollständigen Durchlauf über den gesamten Trainingsdatensatz (im Batch-Lernmodus) im Gegensatz zur klassischen Perceptron-Regel, die die Gewichte aktualisiert, sobald neue Trainingsmuster eintreffen (analog zum stochastischen Gradientenabstieg - online) Lernen).

Sigmoid-Aktivierungsfunktion

Hier ist meine Frage:

In mehrschichtigen Perzeptronen werden Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet. So dass in der Aktualisierungsregel wird wie folgt berechnet $\hat{y}$

\hat{y} = \frac{1}{1 + \exp (- w^{T} x_{ich})}

$\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$

Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression?

4

Erstaunlich, dass ich mit dieser Frage allein mein maschinelles Lernen und die Grundlagen des neuronalen Netzes verdichten konnte!

— Varun

4

Mit dem Gradientenabstieg optimieren (minimieren) wir die Kostenfunktion

$J (w) = \sum_{ich} \frac{1}{2} (y_{ich} - \hat{y_{ich}})^{2} y_{ich}, \hat{y_{ich}} \in R$ $J(\mathbf{w}) = \sum_{i} \frac{1}{2}(y_i - \hat{y_i})^2 \quad \quad y_i,\hat{y_i} \in \mathbb{R}$

Wenn Sie den mittleren quadratischen Fehler minimieren, unterscheidet er sich von der logistischen Regression. Die logistische Regression ist normalerweise mit dem Verlust der Kreuzentropie verbunden. Hier ist eine Einführungsseite aus der scikit-learn-Bibliothek .

(Ich gehe davon aus, dass mehrschichtige Perzeptrone dasselbe sind, das man neuronale Netze nennt.)

Wenn Sie den Cross-Entropy-Verlust (mit Regularisierung) für ein einschichtiges neuronales Netzwerk verwendet haben, ist dies dasselbe Modell (logarithmisches lineares Modell) wie die logistische Regression. Wenn Sie stattdessen ein mehrschichtiges Netzwerk verwenden, kann dies als logistische Regression mit parametrischen nichtlinearen Basisfunktionen betrachtet werden.

Bei mehrschichtigen Perzeptronen wird die Sigma-Aktivierungsfunktion jedoch verwendet, um im Gegensatz zur logistischen Regression und einem einschichtigen Perzeptron eine Wahrscheinlichkeit und kein Ein-Aus-Signal zurückzugeben.

Die Ausgabe sowohl der logistischen Regression als auch der neuronalen Netze mit Sigma-Aktivierungsfunktion kann als Wahrscheinlichkeiten interpretiert werden. Da der Kreuzentropieverlust tatsächlich die negative logarithmische Wahrscheinlichkeit ist, die durch die Bernoulli-Verteilung definiert wird.

— dontloo
quelle

2

Da die Gradientenabnahme jeden Parameter so aktualisiert, dass der Ausgabefehler verringert wird, der für alle Parameter weiterhin gelten muss. Eine schwellenbasierte Aktivierung ist nicht unterscheidbar, weshalb eine Sigmoid- oder Tanh-Aktivierung verwendet wird.

Hier ist ein einschichtiger NN

$\frac{dJ(w,b)}{d\omega_{kj}} =\frac{dJ(w,b)}{dz_k}\cdot \frac{dz_k}{d\omega_{kj}}$

$\frac{dJ(w,b)}{dz_k} = (a_k -y_k)(a_k(1-a_k))$

$\frac{dz_k}{d\omega_{kj}} = x_k$

$J(w,b) = \frac{1}{2} (y_k - a_k)^2$

$a_k = sigm(z_k) = sigm(W_{kj}*x_k + b_k)$

$J$ $z_k$

Hier ist ein Link, der es allgemein erklärt.

Edit: Vielleicht habe ich falsch verstanden, was du mit Perzeptron meinst. Wenn ich mich nicht irre, wird Perceptron als gewogene Summe der Eingaben interpretiert. Wenn Sie das Verständnis mit der Logistikfunktion ändern, wird dies zu einer logistischen Regression. Multi-Layer-NN mit Sigmoid- (logistischen) Aktivierungsfunktionen sind kaskadierte Layer, die aus logistischen Regressionen bestehen.

— yasin.yazici
quelle

3

Dies beantwortet die Frage nicht.

— Neil G

Danke, dass du diesen netten Kommentar geschrieben hast, aber das war nicht das, wonach ich gefragt habe. Meine Frage war nicht "Warum Gradientenabstieg", sondern "Was unterscheidet ein Perzeptron mit einer Sigmoid-Aktivierungsfunktion von einer logistischen Regression

y = W^{T} X

$y = W^T X$

1

y = w_{j}^{T} x_{j i}

$y = w_j^Tx_{ji}$

η (y - s i g n (w^{T} x_{i})) x

$\eta (y - sign(w^Tx_i))x$

η (y - w^{T} x_{i}) x_{i}

$\eta (y - w^Tx_i)x_i$

2

Intuitiv stelle ich mir ein mehrschichtiges Perzeptron vor, das eine nichtlineare Transformation meiner Eingabe-Features berechnet und diese transformierten Variablen dann in eine logistische Regression einspeist.

$\beta_i X$ $i$ $\frac{\beta_i X}{\sum_j \beta_j X}$ . Eine Klasse mit einer großen Punktzahl hat also einen größeren Anteil an der Gesamtpunktzahl und damit eine höhere Wahrscheinlichkeit. Wenn Sie gezwungen sind, eine einzelne Klasse vorherzusagen, wählen Sie die Klasse mit der größten Wahrscheinlichkeit (die auch die größte Punktzahl ist).

Ich kenne Sie nicht, aber in meinen Modellierungskursen und -recherchen habe ich alle Arten von sinnvollen und dummen Transformationen der Eingabe-Features versucht, um deren Bedeutung und allgemeine Modellvorhersage zu verbessern. Dinge zurechtmachen, Protokolle nehmen, zwei zu einer Rate zusammenfassen usw. Ich schämte mich nicht, aber ich hatte nur begrenzte Geduld.

$X$ $\beta_i$

— Dan Van Boxel
quelle