Ich verstehe, dass bei einer Reihe von unabhängigen Beobachtungen der Maximum Likelihood Estimator (oder äquivalent der MAP mit flachem / einheitlichem Prior), der die Parameter \ mathbf {θ} identifiziert , die die Modellverteilung p_ {model} \ erzeugen links (\, \ cdot \ ,; \ mathbf {θ} \ rechts) , die diesen Beobachtungen am besten entspricht, ist
oder bequemer
und sehen Sie die Rolle, die bei der Definition einer Verlustfunktion für tiefe neuronale Netze mit mehreren Klassen spielen kann, in der den trainierbaren Parametern des Netzwerks entspricht (z. B. und die Beobachtungen sind die Paare von Eingabeaktivierungen und die entsprechenden korrekten Klassenbezeichnungen , = { }, indem Sie nehmen
Was ich nicht verstehe, ist, wie dies mit der sogenannten "Kreuzentropie" der (vektorisierten) korrekten Ausgabe und den entsprechenden Ausgabeaktivierungen des Netzwerks , die in der Praxis verwendet wird , wenn die Fehlermess / Verlust während des Trainings . Es gibt mehrere verwandte Probleme:
Aktivierungen "als Wahrscheinlichkeiten"
Einer der Schritte zum Herstellen der Beziehung zwischen MLE und Kreuzentropie besteht darin, die Ausgabeaktivierungen "als ob" Wahrscheinlichkeiten zu verwenden. Aber mir ist nicht klar, dass sie es sind oder zumindest, dass sie es sind.
Bei der Berechnung des Trainingsfehlers - insbesondere bei der Bezeichnung "Kreuzentropieverlust" - wird davon ausgegangen, dass (nach Normalisierung der Aktivierungen auf 1 summiert)
oder
damit wir schreiben können
und somit
Aber während dies sicherlich einer Wahrscheinlichkeit macht (soweit etwas vorhanden ist), ist es dies legt keine Einschränkungen für die anderen Aktivierungen fest.
Kann man in diesem Fall wirklich sagen, dass PMFs sind? Gibt es irgendetwas, das die nicht tatsächlich Wahrscheinlichkeiten macht (und sie lediglich "mag")? )?
Beschränkung auf Kategorisierung
Der obige entscheidende Schritt bei der Gleichsetzung von MLE mit Kreuzentropie beruht vollständig auf der "One-Hot" -Struktur von , die ein (Single-Label-) Mehrklassen-Lernproblem charakterisiert. Jede andere Struktur für würde es unmöglich machen, von nach .
Ist die Gleichung von MLE und Kreuzentropieminimierung auf Fälle beschränkt, in denen "one-hot" ist?
Unterschiedliche Trainings- und Vorhersagewahrscheinlichkeiten
Während der Vorhersage ist dies fast immer der Fall
Dies führt zu korrekten Vorhersagewahrscheinlichkeiten, die sich von den während des Trainings erlernten Wahrscheinlichkeiten unterscheiden, es sei denn, dies ist zuverlässig der Fall
Ist das jemals zuverlässig der Fall? Ist es wahrscheinlich zumindest annähernd wahr? Oder gibt es ein anderes Argument, das diese Gleichung des Wertes der gelernten Aktivierung an der Etikettenposition mit der Wahrscheinlichkeit rechtfertigt, dass der Maximalwert der gelernten Aktivierungen dort auftritt?
Entropie- und Informationstheorie
Selbst wenn angenommen wird, dass die oben genannten Bedenken berücksichtigt werden und die Aktivierungen gültige PMFs sind (oder sinnvoll als solche behandelt werden können), so dass die Rolle der Kreuzentropie bei der Berechnung von unproblematisch ist, ist dies nicht klar Ich, warum es hilfreich oder sinnvoll ist, über die Entropie von zu sprechen , da die Shanon-Entropie für eine bestimmte gilt Art der Codierung , die nicht zum Trainieren des Netzwerks verwendet wird.
Welche Rolle spielt die informationstheoretische Entropie bei der Interpretation der Kostenfunktion, anstatt lediglich ein Werkzeug (in Form einer Kreuzentropie) zur Berechnung eines Werkzeugs (das MLE entspricht) bereitzustellen?
softmax_cross_entropy_with_logits
tun APIs wie TensorFlow : Sie berechnen und damit , das ein Netzwerk definiert, das "entworfen" ist, um Wahrscheinlichkeiten zu erzeugen (zumindest am Etikettenort). Nein?