Wenn Sie logistische Aktivierungsfunktionen verwenden, ist die Funktion, die die Eingänge jeder Einheit mit ihren Ausgängen in Beziehung setzt, dieselbe wie bei der logistischen Regression. Dies ist jedoch nicht wirklich dasselbe wie bei jeder Einheit, die eine logistische Regression durchführt. Der Unterschied besteht darin, dass bei der logistischen Regression die Gewichte und die Verzerrung so gewählt werden, dass die Ausgabe am besten mit den vorgegebenen Zielwerten übereinstimmt (unter Verwendung des logarithmischen / entropieübergreifenden Verlusts). Im Gegensatz dazu senden versteckte Einheiten in einem neuronalen Netz ihre Ausgaben an nachgeschaltete Einheiten. Es gibt keine Zielausgabe für einzelne ausgeblendete Einheiten. Vielmehr werden die Gewichte und Vorspannungen ausgewählt, um eine objektive Funktion zu minimieren, die von der endgültigen Ausgabe des Netzwerks abhängt.
Anstatt eine logistische Regression durchzuführen, ist es möglicherweise sinnvoller, sich jede versteckte Einheit als Berechnung einer Koordinate in einem Merkmalsraum vorzustellen. Aus dieser Perspektive besteht der Zweck einer verborgenen Ebene darin, ihre Eingabe zu transformieren - der Eingabevektor wird auf einen Vektor von Aktivierungen verborgener Ebenen abgebildet. Sie können sich dies so vorstellen, dass Sie die Eingabe in einen Feature-Space mit einer Dimension abbilden, die jeder verborgenen Einheit entspricht.
Die Ausgabeschicht kann oft als Standardlernalgorithmus betrachtet werden, der in diesem Merkmalsraum arbeitet. Beispielsweise entspricht die Verwendung einer logistischen Ausgabeeinheit mit Kreuzentropieverlust in einer Klassifizierungsaufgabe der Durchführung einer logistischen Regression im Merkmalsbereich (oder einer multinomialen logistischen Regression, wenn Softmax-Ausgaben verwendet werden). In einer Regressionsaufgabe entspricht die Verwendung einer linearen Ausgabe mit quadratischem Fehler der Durchführung einer linearen Regression der kleinsten Quadrate im Merkmalsraum.
Das Trainieren des Netzwerks bedeutet das Erlernen der Feature-Space-Zuordnung und der Klassifizierungs- / Regressionsfunktion (im Feature-Space), die zusammen die beste Leistung liefern. Angenommen, nichtlineare verborgene Einheiten, eine Vergrößerung der Breite der verborgenen Ebene oder das Stapeln mehrerer verborgener Ebenen ermöglichen komplexere Zuordnungen des Merkmalsraums, wodurch komplexere Funktionen angepasst werden können.