Ich denke, Ihre Frage bezieht sich eher auf die "Bedeutung" dieses Logarithmus und darauf, warum jede Komponente zur Gesamtbedeutung der Formel beiträgt, als auf den bloßen Formalismus, der die Kohärenz der Definition mit bestimmten Anforderungen zeigt.
Die Idee der Shannon-Entropie besteht darin, die Informationen einer Nachricht anhand ihrer FREQUENZ (dh ) und ihrer GENERALITÄT (dh ) zu :p(x)−log(p(x))
- p(x) : Je "häufiger" eine Nachricht ist, desto weniger Informationen werden übertragen (dh umso besser sind Vorhersagen möglich).
- −log(p(x)) : Je "allgemeiner" eine Nachricht ist, desto mehr Informationen werden übertragen.
Der erste Term handelt von der Häufigkeit, der von seiner Allgemeinheit.p(x)−log(p(x))
Von nun an werde ich diskutieren, wie sich die GENERALITÄT auf die endgültige Entropieformel auswirkt.
Wir können also definieren, wie allgemein (z. B. Regen / kein Regen) oder spezifisch (z. B. hell / mittel / stark / sehr schwerer Regen) eine Nachricht ist, basierend auf der Anzahl der Bits, die zum Codieren benötigt werden:
log2(x)=number_of_bits_to_encode_the_messages
Nun setzen Sie sich, entspannen Sie sich und schauen Sie, wie schön Shannons Entropy den Trick macht: Es basiert auf der (vernünftigen) Annahme, dass Nachrichten, die allgemeiner sind, folglich häufiger sind.
ZB werde ich sagen, dass es entweder regnet, wenn es ein durchschnittlicher, starker oder sehr schwerer Regen ist. Daher schlug er vor, die ALLGEMEINHEIT von Nachrichten basierend darauf zu codieren, wie häufig sie sind ... und los geht's:
log2N=−log21/N=−log2P
mit die Häufigkeit einer Nachricht .Nx
Die Gleichung kann folgendermaßen interpretiert werden: Seltene Nachrichten haben eine längere Codierung, da sie weniger allgemein sind. Daher müssen mehr Bits codiert werden, und sie sind weniger informativ. Daher tragen spezifischere und seltenere Botschaften mehr zur Entropie bei als viele allgemeine und häufige Botschaften.
Bei der endgültigen Formulierung möchten wir zwei Aspekte berücksichtigen. Das erste, , ist, dass häufige Nachrichten leichter vorhergesagt werden können und aus dieser Perspektive weniger informativ sind (dh längere Codierung bedeutet höhere Entropie). Das zweite, , ist, dass häufige Nachrichten ebenfalls allgemein und aus dieser Perspektive informativer sind (dh kürzere Codierung bedeutet geringere Entropie).p(x)−log(p(x))
Die höchste Entropie ist, wenn wir ein System mit vielen seltenen und spezifischen Nachrichten haben. Die niedrigste Entropie mit häufigen und allgemeinen Botschaften. Dazwischen gibt es ein Spektrum von entropieäquivalenten Systemen, die sowohl seltene als auch allgemeine Botschaften oder häufige, aber spezifische Botschaften enthalten können.