Was bedeutet gegenseitige Information über die numerische Berechnung hinaus?


8

Was bedeutet es physikalisch, abgesehen von der Rohgleichung zur Berechnung der gegenseitigen Information? Zum Beispiel: Aus der Informationstheorie wissen wir, dass Entropie das kleinste verlustfreie Komprimierungsschema ist, das wir für ein Alphabet mit einer bestimmten Wahrscheinlichkeitsverteilung verwenden können.

Was würde das für die gegenseitige Information bedeuten?

Hintergrund: Ich versuche, die gegenseitige Information von Uni-Gramm-Wörtern zu berechnen und festzustellen, aus welchem ​​von zwei Büchern sie stammen.

wesentlich

I(book;word)

Hier sind einige Links, die ich gefunden habe und die Ihnen ebenfalls helfen könnten: ( stats.stackexchange.com/search?q=mutual+information )
Spacey

Antworten:


6

Gegenseitige Informationen beziehen sich per Definition auf zwei Zufallsvariablen (RV) und messen die Abhängigkeit zwischen den beiden RV aus Sicht des Informationsgehalts, dh das Maß für die Informationsmenge, die ein RV über das andere RV enthält. Und gegenseitige Information ist eine symmetrische Größe, dh .I(X;Y)=I(Y;X)

Im Fall eines Kommunikationskanals ist die maximal erreichbare Kapazität für den Kanal das Maximum der gegenseitigen Information zwischen dem und dem Ausgang .C=maxp(x)I(X;Y)

In Ihrem Fall würden die beiden Wohnmobile und Büchern und Wörtern entsprechen. Die gegenseitige Information würde die Informationsmenge messen, die einem (Buch-, Wort-) Paar gemeinsam ist. Offensichtlich würden Sie das Wort dem Buch zuordnen, mit dem Sie die maximale gegenseitige Information haben. Dies ist der maximale Ansatz der gegenseitigen Information.Y.XY


Könnte mehr Absätze, Grammatik und weniger lehrbuchähnlichen Ton verwenden, ist aber ansonsten sehr klar.
CyberMen

6

Zwei zusätzliche intuitive Funktionen zur gegenseitigen Information:

  • Wenn zwei Zufallsvariablen unabhängig sind, sind die gemeinsame Verteilung und das Produkt der Randverteilungen und identisch. Man könnte also den Grad der Unabhängigkeit zwischen zwei Zufallsvariablen beurteilen, indem man einen probabilistischen Abstand zwischen und berechnet - dieser Abstand ist 0, wenn die beiden Variablen unabhängig sind. Ein häufiger probabilistischer Abstand zwischen Variablen ist die Kullback-Leibler-Divergenz. Wenn Sie die Kullback-Leibler-Divergenz zwischen der gemeinsamen Verteilung und dem Produkt der Ränder zweier Zufallsvariablen nehmen, erhalten Sie ... gegenseitige Informationen.p ( x ) p ( y ) p ( x ) × p ( y ) p ( x , y )p(x,y)p(x)p(y)p(x)×p(y)p(x,y)

  • Stellen Sie sich aus Sicht der Komprimierung / Codierung vor, Sie erhalten eine Folge von Beobachtungspaaren . Sie möchten sie in eine Datei komprimieren. Zwei Strategien: Speichern aller (x) in einer komprimierten Datei und dann unabhängig alle (y) in einer anderen komprimierten Datei; vs Komprimieren der Paare. Bei Verwendung eines optimalen Codierers beträgt die Dateigröße im ersten Fall , während im zweiten Fall die Dateigröße beträgt . Der zweite Ansatz ist effizienter, wenn eine Beziehung zwischen den beiden beobachteten Variablen besteht! Wie viele Bits haben wir pro Beobachtung gespeichert? ( x , y ) N × H ( X ) + N × H ( Y ) N × H ( X , Y ) N × H ( X ) + N × H ( Y ) - N × H ( X , Y )N(x,y)N×H(X)+N×H(Y)N×H(X,Y)N×H(X)+N×H(Y)N×H(X,Y)N=I(X,Y)! Die gegenseitige Information sagt uns also, wie viel Bit pro Beobachtung wir sparen, indem wir zwei Datenströme gemeinsam und nicht unabhängig voneinander codieren.

Bei Ihrem Beispiel bin ich mir jedoch nicht sicher ... Gegenseitige Informationen werden zwischen zwei Zufallsvariablen (Verteilungen) berechnet. Ich kann sehen, wie "Buch" die Verteilung von Wörtern in einem Buch darstellen kann; aber ich bin nicht sicher, was "Wort" hier bedeutet. Für gegenseitige Informationen müssen auch "gepaarte" Beobachtungen berechnet werden.


Stellen Sie sich mehrere Bücher dieser Kategorie vor. (Grundsätzlich können Sie P (c) = #books of C / # totalbooks berechnen. Wörter - Histogramm verwenden.)
CyberMen

Auf welche Kategorie beziehen Sie sich? Was sind Ihre Beobachtungspaare?
Pichenettes
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.