In dem Artikel Deep Learning und das Prinzip des Informationsengpasses geben die Autoren in Abschnitt II A) Folgendes an:
Einzelne Neuronen klassifizieren nur linear trennbare Eingaben, da sie nur Hyperebenen in ihrem Eingaberaum implementieren können . Hyperebenen können Daten optimal klassifizieren, wenn die Eingaben bedingt unabhängig sind.
Um dies zu zeigen, leiten sie Folgendes ab. Mit dem Bayes-Theorem erhalten sie:
(1)
Wobei die Eingabe ist, die Klasse ist und die vorhergesagte Klasse ist (ich nehme an, nicht definiert). Weiter heißt es:
(2)
Wobei die Eingabedimension ist und ich nicht sicher bin (wieder sind beide undefiniert). Betrachtet man ein Sigmoidalneuron, so erhalten wir mit der Sigmoidaktivierungsfunktion und der Voraktivierung nach dem Einfügen von (2) in (1) die optimalen Gewichtswerte und , wenn die Eingabewerte .
Nun zu meinen Fragen. Ich verstehe, wie das Einfügen von (2) in (1) zu den optimalen Gewichts- und Eingabewerten . Was ich jedoch nicht verstehe, ist folgendes:
- Wie wird (1) unter Verwendung des Bayes-Theorems abgeleitet?
- Wie wird (2) abgeleitet? Was ist ? Was bedeutet das? Ich nehme an, es hat etwas mit bedingter Unabhängigkeit zu tun
- Selbst wenn die Dimensionen von x bedingt unabhängig sind, wie kann man sagen, dass es gleich seiner skalierten Wahrscheinlichkeit ist? (dh wie können Sie ?)
EDIT: Die Variable ist eine binäre Klassenvariable. Daraus gehe ich davon aus, dass die "andere" Klasse ist. Dies würde Frage 1 lösen. Stimmen Sie zu?