„Wie lässt sich die Entropie eines Bildes am besten informations- / physikalisch-theoretisch richtig berechnen?“
Eine ausgezeichnete und aktuelle Frage.
Entgegen der landläufigen Meinung ist es tatsächlich möglich, eine intuitive (und theoretisch) natürliche Informationsentropie für ein Bild zu definieren.
Betrachten Sie die folgende Abbildung:
Wir können sehen, dass das Differenzbild ein kompakteres Histogramm aufweist, weshalb seine Shannon-Informationsentropie geringer ist. Wir können also eine geringere Redundanz erzielen, indem wir die Shannon-Entropie zweiter Ordnung verwenden (dh die Entropie, die aus Differentialdaten abgeleitet wird). Wenn wir diese Idee isotrop in 2D erweitern können, können wir gute Schätzungen für die Bildinformationsentropie erwarten.
Ein zweidimensionales Histogramm von Verläufen ermöglicht die 2D-Erweiterung.
Wir können die Argumente formalisieren und dies ist in der Tat vor kurzem abgeschlossen worden. Kurz zusammengefasst:
Die Beobachtung, dass die einfache Definition (siehe zum Beispiel MATLABs Definition der Bildentropie) die räumliche Struktur ignoriert, ist entscheidend. Um zu verstehen, was los ist, lohnt es sich, kurz auf den 1D-Fall zurückzukommen. Es ist seit langem bekannt, dass die Verwendung des Histogramms eines Signals zur Berechnung seiner Shannon-Information / Entropie die zeitliche oder räumliche Struktur ignoriert und eine schlechte Schätzung der inhärenten Kompressibilität oder Redundanz des Signals liefert. Die Lösung war bereits in Shannons klassischem Text enthalten. Verwenden Sie die Eigenschaften zweiter Ordnung des Signals, dh Übergangswahrscheinlichkeiten. Die Beobachtung im Jahr 1971 (Rice & Die Annahme, dass der beste Prädiktor eines Pixelwerts in einer Rasterabtastung der Wert des vorhergehenden Pixels ist, führt sofort zu einem Differentialprädiktor und einer Shannon-Entropie zweiter Ordnung, die mit einfachen Komprimierungsideen wie Lauflängencodierung übereinstimmt. Diese Ideen wurden in den späten 80er Jahren verfeinert, was zu einigen klassischen verlustfreien Bildcodierungstechniken (Differenzialcodierung) führte, die immer noch verwendet werden (PNG, verlustfreies JPG, GIF, verlustfreies JPG2000), während Wavelets und DCTs nur für verlustbehaftete Codierung verwendet werden.
Jetzt zu 2D übergehen; Die Forscher fanden es sehr schwierig, Shannons Ideen auf höhere Dimensionen auszuweiten, ohne eine Orientierungsabhängigkeit einzuführen. Intuitiv könnte man erwarten, dass die Shannon-Informationsentropie eines Bildes unabhängig von seiner Orientierung ist. Wir erwarten auch, dass Bilder mit einer komplizierten räumlichen Struktur (wie das Beispiel des zufälligen Rauschens des Fragestellers) eine höhere Informationsentropie aufweisen als Bilder mit einer einfachen räumlichen Struktur (wie das Beispiel des Fragestellers mit glatten Graustufen). Es stellt sich heraus, dass es so schwierig war, Shannons Ideen von 1D auf 2D zu erweitern, weil Shannons ursprüngliche Formulierung eine (einseitige) Asymmetrie aufweist, die eine symmetrische (isotrope) Formulierung in 2D verhindert. Sobald die 1D-Asymmetrie korrigiert ist, kann die 2D-Erweiterung einfach und natürlich erfolgen.
Auf den Punkt gebracht (interessierte Leser können die ausführliche Darstellung im arXiv-Preprint unter https://arxiv.org/abs/1609.01117 nachlesen ), wo die Bildentropie aus einem 2D-Histogramm von Verläufen berechnet wird (Gradientenwahrscheinlichkeitsdichtefunktion).
Zunächst wird das 2D-PDF durch Binning-Schätzungen der x- und y-Ableitungen der Bilder berechnet. Dies ähnelt der Binning-Operation, mit der das in 1D üblichere Intensitätshistogramm erstellt wird. Die Ableitungen können durch endliche Differenzen von 2 Pixeln geschätzt werden, die in horizontaler und vertikaler Richtung berechnet werden. Für ein NxN-Quadratbild f (x, y) berechnen wir NxN-Werte der partiellen Ableitung fx und NxN-Werte von fy. Wir scannen das Differenzbild und suchen für jedes Pixel, das wir verwenden (fx, fy), eine diskrete Bin im Ziel-Array (2D-PDF), die dann um eins erhöht wird. Wir wiederholen für alle NxN Pixel. Das resultierende 2D-PDF muss normalisiert werden, um die Gesamtwahrscheinlichkeit der Einheit zu erhalten (dies wird einfach durch NxN dividiert). Das 2D-PDF ist jetzt bereit für die nächste Stufe.
Die Berechnung der 2D-Shannon-Informationsentropie aus dem 2D-Gradienten-PDF ist einfach. Die klassische logarithmische Summationsformel von Shannon gilt direkt, mit Ausnahme eines entscheidenden Faktors von der Hälfte, der aus speziellen Überlegungen zur bandbegrenzten Abtastung für ein Gradientenbild stammt (Einzelheiten siehe arXiv-Artikel). Der halbe Faktor verringert die berechnete 2D-Entropie im Vergleich zu anderen (redundanteren) Methoden zur Schätzung der 2D-Entropie oder der verlustfreien Komprimierung.
Es tut mir leid, dass ich hier nicht die notwendigen Gleichungen geschrieben habe, aber alles ist im Preprint-Text verfügbar. Die Berechnungen sind direkt (nicht iterativ) und die Komplexität der Berechnung ist in der Größenordnung (Anzahl der Pixel) NxN. Die endgültig berechnete Shannon-Informationsentropie ist rotationsunabhängig und entspricht genau der Anzahl von Bits, die zum Codieren des Bildes in einer nicht redundanten Gradientendarstellung erforderlich sind.
Übrigens sagt das neue 2D-Entropiemaß eine (intuitiv ansprechende) Entropie von 8 Bit pro Pixel für das Zufallsbild und 0,000 Bit pro Pixel für das glatte Gradientenbild in der ursprünglichen Frage voraus.