Das ist nicht wirklich mein Fachgebiet, daher einige Überlegungen:
Ich werde mit dem Konzept der Überraschung beginnen . Was bedeutet es, überrascht zu sein? Normalerweise bedeutet dies, dass etwas passiert ist, was nicht erwartet wurde. Überraschen Sie es also mit einem probabilistischen Konzept und lassen Sie sich als solches erklären (IJ Good hat darüber geschrieben). Siehe auch Wikipedia und Bayesian Surprise .
Nehmen Sie den besonderen Fall einer Ja / Nein-Situation, etwas kann passieren oder nicht. Es passiert mit der Wahrscheinlichkeit p . Angenommen, wenn p = 0,9 und es passiert, sind Sie nicht wirklich überrascht. Wenn p=0.05 und es passiert, sind Sie etwas überrascht. Und wenn p=0.0000001 und es passiert, sind Sie wirklich überrascht. Ein natürliches Maß für den "Überraschungswert im beobachteten Ergebnis" ist also eine (anti) monotone Funktion der Wahrscheinlichkeit dessen, was passiert ist. Es erscheint natürlich (und funktioniert gut ...), den Logarithmus der Wahrscheinlichkeit des Geschehens zu nehmen, und dann geben wir ein Minuszeichen ein, um eine positive Zahl zu erhalten. Durch den Logarithmus konzentrieren wir uns auch auf die Reihenfolge der Überraschung, und in der Praxis sind Wahrscheinlichkeiten oft nur bis zu einer bestimmten Reihenfolge mehr oder weniger bekannt .
Wir definieren also
Surprise(A)=−logp(A)
wobei A das beobachtete Ergebnis und p(A) seine Wahrscheinlichkeit ist.
Jetzt können wir fragen, was die erwartete Überraschung ist . Sei X eine Bernoulli-Zufallsvariable mit der Wahrscheinlichkeit p . Es gibt zwei mögliche Ergebnisse: 0 und 1. Der jeweilige Überraschungswert ist
Überraschung ( 0 )Überraschung ( 1 )= - log( 1 - p )= - logp
also die Überraschung beim Beobachten vonXist selbst eine Zufallsvariable mit der Erwartung
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
und das ist --- überraschung! --- die Entropie vonX! So wird EntropieÜberraschung erwartet!
In dieser Frage geht es um die maximale Entropie . Warum sollte jemand eine maximale Entropieverteilung verwenden wollen? Nun, es muss sein, weil sie maximal überrascht sein wollen! Warum sollte jemand das wollen?
Ein Weg, es zu betrachten, ist der folgende: Sie möchten etwas lernen, und zu diesem Zweck stellen Sie einige Lernerfahrungen (oder Experimente ...) auf. Wenn Sie bereits alles über dieses Thema gewusst haben, können Sie es immer perfekt vorhersagen und sind nie überrascht. Dann bekommst du nie neue Erfahrungen, also lerne nichts Neues (aber du weißt schon alles - es gibt nichts zu lernen, also ist das in Ordnung). In der typischen Situation, dass Sie verwirrt sind und nicht in der Lage sind, perfekt vorauszusagen, gibt es eine Lernmöglichkeit! Dies führt zu der Idee, dass wir das "Ausmaß des möglichen Lernens" an der erwarteten Überraschung , dh an der Entropie, messen können . Die Maximierung der Entropie ist also nichts anderes als die Maximierung der Lernmöglichkeiten. Das klingt nach einem nützlichen Konzept, das bei der Gestaltung von Experimenten und dergleichen nützlich sein könnte.
Ein poetisches Beispiel ist das bekannte
Wenn einer eine Reise macht, dann kann er erzählen ...
Ein praktisches Beispiel: Sie möchten ein System für Online-Tests entwerfen (Online bedeutet, dass nicht jeder die gleichen Fragen erhält, die Fragen werden dynamisch in Abhängigkeit von den vorherigen Antworten ausgewählt und auf irgendeine Weise für jede Person optimiert).
Wenn Sie zu schwierige Fragen stellen, damit sie nie gemeistert werden, lernen Sie nichts. Das bedeutet, dass Sie den Schwierigkeitsgrad senken müssen. Was ist der optimale Schwierigkeitsgrad, dh der Schwierigkeitsgrad, der die Lernrate maximiert? Die Wahrscheinlichkeit der richtigen Antwort sei p . Wir wollen den Wert von p , der die Bernoulli-Entropie maximiert. Das ist aber p=0.5 . Sie möchten also Fragen angeben, bei denen die Wahrscheinlichkeit, eine richtige Antwort (von dieser Person) zu erhalten, 0,5 beträgt.
Dann wird der Fall einer kontinuierlichen Zufallsvariablen X . Wie können wir überrascht sein, wenn wir X beobachten ? Die Wahrscheinlichkeit eines bestimmten Ergebnisses {X=x} ist Null, die −logp Definition ist unbrauchbar. Wir werden uns jedoch wundern, wenn die Wahrscheinlichkeit, etwas wie x beobachten, gering ist, dh wenn der Dichtefunktionswert f(x) gering ist (vorausgesetzt, f ist stetig). Das führt zur Definition
Surprise(x)=−logf(x)
Mit dieser Definition ist die erwartete Überraschung aus der Beobachtung X ist
E{−logf(X)}=−∫f(x)logf(x)dx
,
dass die erwartete Überraschung ausBeobachtung ist,X ist die differentielle EntropieX . Es kann auch als die erwartete Log-Wahrscheinlichkeit angesehen werden.
X