Intuition über eine gemeinsame Entropie


9

Ich habe Probleme, eine Intuition über die gemeinsame Entropie aufzubauen. = Unsicherheit in der gemeinsamen Verteilung ; = Unsicherheit in ; = Unsicherheit in .H(X,Y)p(x,y)H(X)px(x)H(Y)py(y)

Wenn H (X) hoch ist, ist die Verteilung unsicherer und wenn Sie das Ergebnis einer solchen Verteilung kennen, haben Sie mehr Informationen! H (X) quantifiziert also auch Informationen.

Jetzt können wirH(X,Y)H(X)+H(Y)

Wenn Sie jedoch , können Sie und sodass in gewissem Sinne mehr Informationen enthält als und . Ist die Unsicherheit in Bezug auf p (x, y) größer als die Summe der einzelnen Unsicherheiten?p(x,y)px(x)py(y)p(x,y)px(x)py(y)

Antworten:


7

In der Regel erhöhen zusätzliche Informationen niemals die Entropie, die formal wie folgt angegeben wird:

H(X|Y)H(X)

Die Gleichheit gilt, wenn und unabhängig sind, was impliziert, dass .XYH(X|Y)=H(X)

Dieses Ergebnis kann verwendet werden, um die gemeinsame Entropie zu beweisen . Betrachten Sie zur Demonstration einen einfachen Fall . Gemäß der Kettenregel können wir die Verknüpfungsentropie wie folgt schreibenH(X1,X2,...,Xn)i=1nH(Xi)H(X,Y)

H(X,Y)=H(X|Y)+H(Y)

In Anbetracht Ungleichheit , erhöht nicht die Entropie der variablen , und somit . Mit Induktion kann man dieses Ergebnis auf Fälle verallgemeinern, die mehr als zwei Variablen betreffen.H(X|Y)XH(X,Y)H(X)+H(Y)

Hoffe, es hat geholfen, die Mehrdeutigkeit (oder Ihre Entropie) über die gemeinsame Entropie zu reduzieren!


4

Es gibt einen anderen Gesichtspunkt der Shannon-Entropie. Stellen Sie sich vor, Sie möchten anhand von Fragen erraten, wie hoch der konkrete Wert einer Variablen ist. Stellen Sie sich der Einfachheit halber vor, dass der Wert nur acht verschiedene Werte annehmen kann und alle gleich wahrscheinlich sind.(0,1,...,8)

Am effizientesten ist es, eine binäre Suche durchzuführen. Zuerst fragen Sie, ob größer oder kleiner als 4 ist. Dann vergleichen Sie es mit 2 oder 6 und so weiter. Insgesamt benötigen Sie nicht mehr als drei Fragen (dies ist die Anzahl der Bits dieser konkreten Verteilung).

Wir können die Analogie für den Fall zweier Variablen fortsetzen. Wenn sie nicht unabhängig sind, hilft es Ihnen, den Wert eines von ihnen zu kennen, um (im Durchschnitt) bessere Vermutungen für die nächste Frage anzustellen (dies spiegelt sich in den Ergebnissen wider, auf die omidi hinweist ). Daher ist die Entropie geringer, es sei denn, sie sind vollständig unabhängig, wobei Sie ihre Werte unabhängig erraten müssen. Zu sagen, dass die Entropie niedriger ist, bedeutet (für dieses konkrete Beispiel), dass Sie im Durchschnitt weniger Fragen stellen müssen (dh meistens werden Sie gute Vermutungen anstellen).


2

Es scheint, dass Sie den Gedanken machen, "wenn mehr Informationen bekannt sind, dann mehr Entropie, wenn sie unbekannt sind". Dies ist keine korrekte Intuition, denn wenn die Verteilung unbekannt ist, kennen wir nicht einmal ihre Entropie. Wenn die Verteilung bekannt ist, quantifiziert die Entropie die Informationsmenge, die zur Beschreibung der Unsicherheit über die Realisierung der Zufallsvariablen benötigt wird, die unbekannt bleibt (wir kennen die Struktur, die diese Unsicherheit umgibt, nur durch Kenntnis der Verteilung). Die Entropie quantifiziert die in der Verteilung "vorhandenen" Informationen nicht . Im Gegenteil: Je mehr Informationen in die Verteilung "einbezogen" werden, desto weniger Informationen werden "benötigt", um die Unsicherheit zu beschreiben, und desto wenigerDie Entropie ist. Betrachten Sie die gleichmäßige Verteilung: Sie enthält nur sehr wenige Informationen, da alle möglichen Werte der Variablen gleich wahrscheinlich sind. Daher weist sie unter allen Verteilungen mit begrenzter Unterstützung eine maximale Entropie auf.

Die gemeinsame Entropie kann wie folgt dargestellt werden: Die gemeinsame Verteilung enthält Informationen darüber, ob zwei Variablen abhängig sind oder nicht, sowie Informationen, die ausreichen, um die Randverteilungen abzuleiten. Die Randverteilungen enthalten keine Informationen darüber, ob zwei Zufallsvariablen abhängig oder unabhängig sind. Die gemeinsame Verteilung enthält also mehr Informationen und bietet uns weniger Unsicherheit hinsichtlich der beteiligten Zufallsvariablen:

Weitere Informationen in der Verteilung weniger Unsicherheit in Bezug auf die Variablen weniger Informationen zur Beschreibung dieser Unsicherheit weniger Entropie.


Danke, das macht die Dinge sehr klar. Ich dachte in diesem Sinne, dass Korrelationen in einer Verteilung die Unsicherheit eines Wertepaars verringern sollten und daher kleiner sein muss als . (X,Y)H(X,Y)H(X)+H(Y)
user21455

Ja, das ist die Essenz.
Alecos Papadopoulos
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.