Im Wesentlichen ist meine Frage, dass in mehrschichtigen Perzeptronen Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet werden. So dass in der Aktualisierungsregel y wird wie folgt berechnet
Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression?
Ich würde sagen , dass eine einlagige Perceptron sigmoid auf eine logistische Regression in dem Sinne äquivalent , daß sowohl die Verwendung y = 1 in der Aktualisierungsregel. Auch beiden in der Vorhersage. Bei mehrschichtigen Perzeptronen wird die Sigma-Aktivierungsfunktion jedoch verwendet, um im Gegensatz zur logistischen Regression und einem einschichtigen Perzeptron eine Wahrscheinlichkeit und kein Ein-Aus-Signal zurückzugeben.
Ich denke, die Verwendung des Begriffs "Perceptron" ist etwas mehrdeutig. Lassen Sie mich daher einige Hintergrundinformationen liefern, die auf meinem derzeitigen Verständnis von einschichtigen Perceptrons basieren:
Klassische Perzeptronregel
Erstens das klassische Perzeptron von F. Rosenblatt, bei dem wir eine Stufenfunktion haben:
um die Gewichte zu aktualisieren
So dass y wird wie folgt berechnet
Gradientenabstieg
Mit dem Gradientenabstieg optimieren (minimieren) wir die Kostenfunktion
wo wir "reelle" Zahlen haben, sehe ich dies im Grunde genommen analog zur linearen Regression mit dem Unterschied, dass unsere Klassifizierungsausgabe auf einen Schwellenwert begrenzt ist.
Hier machen wir einen Schritt in die negative Richtung des Verlaufs, wenn wir die Gewichte aktualisieren
Aber hier haben wir y anstelle von y = Vorzeichen ( w T x i )
Außerdem berechnen wir die Summe der quadratischen Fehler für einen vollständigen Durchlauf über den gesamten Trainingsdatensatz (im Batch-Lernmodus) im Gegensatz zur klassischen Perceptron-Regel, die die Gewichte aktualisiert, sobald neue Trainingsmuster eintreffen (analog zum stochastischen Gradientenabstieg - online) Lernen).
Sigmoid-Aktivierungsfunktion
Hier ist meine Frage:
In mehrschichtigen Perzeptronen werden Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet. So dass in der Aktualisierungsregel y wird wie folgt berechnet
Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression?