Das Lehrbuch Elemente der Informationstheorie gibt uns ein Beispiel:
Wenn wir zum Beispiel die wahre Verteilung p der Zufallsvariablen kennen würden, könnten wir einen Code mit der durchschnittlichen Beschreibungslänge H (p) konstruieren. Wenn wir stattdessen den Code für eine Verteilung q verwenden würden, bräuchten wir durchschnittlich H (p) + D (p || q) Bits, um die Zufallsvariable zu beschreiben.
Um die obige Aussage zu paraphrasieren, können wir sagen, dass wir, wenn wir die Informationsverteilung (von q nach p) ändern, im Durchschnitt D (p || q) zusätzliche Bits benötigen, um die neue Verteilung zu codieren.
Eine Illustration
Lassen Sie mich dies anhand einer Anwendung in der Verarbeitung natürlicher Sprache veranschaulichen.
Bedenken Sie, dass eine große Gruppe von Menschen, die mit B bezeichnet, sind Vermittler und jeder von ihnen zugeordnet ist eine Aufgabe , ein Substantiv zu wählen turkey
, animal
und book
und Sende es C. Es ist ein Typ Name A , die jeder von ihnen eine E - Mail zu geben senden kann ihnen ein paar Hinweise. Wenn niemand in der Gruppe die E-Mail erhalten hat, können sie die Augenbrauen hochziehen und eine Weile zögern, darüber nachzudenken, was C benötigt. Die Wahrscheinlichkeit, dass eine Option ausgewählt wird, beträgt 1/3. Allgemein gleichmäßige Verteilung (wenn nicht, kann es sich auf ihre eigenen Vorlieben beziehen und wir ignorieren solche Fälle einfach).
Aber wenn ihnen ein Verb gegeben wird, wie baste
, können 3/4 von ihnen wählen turkey
und 3/16 wählen animal
und 1/16 wählen book
. Wie viele Informationen in Bits hat dann jeder der Mediatoren im Durchschnitt erhalten, wenn er das Verb kennt? Es ist:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Aber was ist, wenn das angegebene Verb ist read
? Wir können uns vorstellen, dass alle von ihnen book
ohne zu zögern wählen würden, dann ist der durchschnittliche Informationsgewinn für jeden Mediator aus dem Verb read
:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Wir können sehen, dass das Verb read
den Mediatoren mehr Informationen geben kann. Und genau das kann die relative Entropie messen.
Lass uns unsere Geschichte fortsetzen. Wenn C vermutet, dass das Substantiv falsch ist, weil A ihm mitgeteilt hat, dass er möglicherweise einen Fehler gemacht hat, indem er das falsche Verb an die Mediatoren gesendet hat. Wie viele Informationen in Bits kann eine solche schlechte Nachricht dann C geben?
1) wenn das von A gegebene Verb war baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) aber was, wenn das Verb war read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Da C nie weiß, wie die beiden anderen Substantive lauten würden, wäre jedes Wort im Wortschatz möglich.
Wir können sehen, dass die KL-Divergenz asymmetrisch ist.
Ich hoffe, ich habe recht, und wenn nicht, kommentieren Sie bitte und helfen Sie, mich zu korrigieren. Danke im Voraus.