Diese Frage enthält noch keine wesentlichen Informationen, aber ich denke, ich kann einige intelligente Vermutungen anstellen:
Die Entropie einer diskreten Verteilung ist definiert alsp=(p0,p1,…,p255)
H(p)=−∑i=0255pilog2pi.
Da eine konkave Funktion ist, wird die Entropie maximiert, wenn alle gleich sind. Da sie eine Wahrscheinlichkeitsverteilung bestimmen (sie summieren sich zu Eins), tritt dies auf, wenn für jedes , woraus die maximale Entropie ist−logpipi=2−8i
H0=−∑i=02552−8log2(2−8)=∑i=02552−8×8=8.
Die Entropien von Bit / Byte ( dh unter Verwendung von binären Logarithmen) und liegen sowohl nahe als auch nahe an der theoretischen Grenze von .7.99615327.9998857H0=8
Wie knapp? Das Erweitern von in einer Taylor-Reihe um das Maximum zeigt, dass die Abweichung zwischen und einer Entropie gleich istH(p)H0H(p)
H0−H(p)=∑i(pi−2−8)22⋅2−8log(2)+O(pi−2−8)3.
Mit dieser Formel können wir schließen, dass eine Entropie von , was einer Diskrepanz von , durch eine Abweichung des quadratischen Mittelwerts von nur zwischen und der perfekt gleichmäßigen Verteilung von . Dies entspricht einer durchschnittlichen relativen Abweichung von nur %. Eine ähnliche Berechnung für eine Entropie von entspricht einer RMS-Abweichung in von nur 0,09%.0,0038468 0,00002099 p i 2 - 8 0,5 7,9998857 p i7.99615320.00384680.00002099pi2−80.57.9998857pi
(In einer Abbildung wie der untersten in der Frage, deren Höhe etwa Pixel umfasst, entspricht eine Variation von % RMS Änderungen von nur einem Pixel über oder unter der mittleren Höhe , wenn wir annehmen, dass die Höhe der Balken und fast immer weniger als drei Pixel. So sieht es aus. Ein Effektivwert von % würde dagegen mit Abweichungen von durchschnittlich etwa Pixeln verbunden sein, aber selten mehr als Pixel oder so. Das ist nicht das, was Die obere Figur sieht mit ihren offensichtlichen Variationen von oder mehr Pixeln so aus. Ich vermute daher, dass dies bei diesen Figuren nicht der Fall istp i 0,09 0,5 6 15 1001000pi0.090.5615100 direkt miteinander vergleichbar.)
In beiden Fällen handelt es sich um kleine Abweichungen, aber eine ist mehr als fünfmal kleiner als die andere. Jetzt müssen wir einige Vermutungen anstellen, da die Frage weder Aufschluss darüber gibt, wie die Entropien zur Bestimmung der Einheitlichkeit verwendet wurden, noch darüber, wie viele Daten vorhanden sind. Wenn ein echter "Entropietest" angewendet wurde, muss er wie jeder andere statistische Test die zufällige Variation berücksichtigen. In diesem Fall variieren die beobachteten Frequenzen (aus denen die Entropien berechnet wurden) aufgrund des Zufalls tendenziell von den tatsächlich zugrunde liegenden Frequenzen . Diese Variationen führen über die oben angegebenen Formeln zu Variationen der beobachteten Entropie von der tatsächlich zugrunde liegenden Entropie. Bei ausreichenden DatenWir können feststellen, ob die wahre Entropie von dem Wert abweicht, der mit einer gleichmäßigen Verteilung verbunden ist. Wenn alle anderen Dinge gleich sind, wird die Datenmenge, die benötigt wird, um eine mittlere Diskrepanz von nur % im Vergleich zu einer mittleren Diskrepanz von % festzustellen , ungefähr mal so groß sein: In diesem Fall funktioniert das bis mehr als mal so viel sein.0,09 0,5 ( 0,5 / 0,09 ) 2 3380.090.5(0.5/0.09)233
Folglich ist es durchaus möglich , dass es genügend Daten , um zu bestimmen , dass eine beobachtete Entropie von unterscheidet sich deutlich von , während eine äquivalente Menge an Daten nicht in der Lage wäre , zu unterscheiden von . (Diese Situation, nebenbei bemerkt , ist ein sogenannter falsch negativ , kein „falsch positiv“ , weil es versäumt einen Mangel an Einheitlichkeit zu identifizieren (die eine „negative“ Ergebnis betrachtet wird).) Daher schlage ich vor , dass (a ) Die Entropien wurden tatsächlich korrekt berechnet und (b) die Datenmenge erklärt angemessen, was passiert ist.8 7.99988 … 87.996…87.99988…8
Im Übrigen scheinen die Zahlen entweder nutzlos oder irreführend zu sein, da ihnen entsprechende Etiketten fehlen. Obwohl die untere eine nahezu gleichmäßige Verteilung darzustellen scheint (vorausgesetzt, die x-Achse ist diskret und entspricht den möglichen Bytewerten und die y-Achse ist proportional zur beobachteten Frequenz), kann die obere möglicherweise nirgendwo einer Entropie entsprechen in der Nähe von . Ich vermute, dass die Null der y-Achse in der oberen Abbildung nicht angezeigt wurde, so dass die Abweichungen zwischen den Frequenzen übertrieben sind. (Tufte würde sagen, diese Figur hat einen großen Lügenfaktor.)82568