Hintergrund: Ich studiere Kapitel 6 von Deep Learning von Ian Goodfellow und Yoshua Bengio und Aaron Courville. In Abschnitt 6.2.2.2 (Seiten 182 von 183, die hier eingesehen werden können ) wird die Verwendung von Sigmoid zur Ausgabe von motiviert.
Um einen Teil des Materials zusammenzufassen, lassen sie
Wir lassen die Abhängigkeit von für den Moment weg, um zu diskutieren, wie eine Wahrscheinlichkeitsverteilung über Verwendung des Wertes . Das Sigmoid kann motiviert werden, indem eine nicht normalisierte Wahrscheinlichkeitsverteilung konstruiert wird , die nicht 1 ergibt. Wir können dann durch eine geeignete Konstante dividieren, um eine gültige Wahrscheinlichkeitsverteilung zu erhalten. Wenn wir mit der Annahme beginnen, dass die nicht normalisierten logarithmischen Wahrscheinlichkeiten in und linear sind , können wir potenzieren, um die nicht normalisierten Wahrscheinlichkeiten zu erhalten. Wir normalisieren dann, um zu sehen, dass dies eine Bernoulli-Verteilung ergibt, die durch eine Sigmoidtransformation von z gesteuert wird: y z ˜ P ( y ) y z log ˜ P ( y )
Fragen: Ich bin verwirrt über zwei Dinge, insbesondere das erste:
- Woher kommt die ursprüngliche Annahme? Warum ist die nicht normalisierte logarithmische Wahrscheinlichkeit in und linear ? Kann mir jemand sagen, wie die Autoren mit angefangen haben?z log ˜ P ( y ) = y z ?
- Wie folgt die letzte Zeile?