Wie komplex ist die Berechnung optimaler, vorwahlfreier Codes, wenn die Frequenzen ähnlich sind?

Es ist bekannt, dass es einen optimalen Algorithmus für den ungünstigsten Fall gibt, um den Huffman-Code in der Zeit zu berechnen $\theta(n\lg n)$ . Dies wird auf zwei orthogonale Arten verbessert:

Optimale freie Präfixcodes können schneller berechnet werden, wenn die Menge der verschiedenen Frequenzen klein ist (z. B. mit der Größe $\sigma$ ): Sortieren Sie die Frequenzen mit [Munro und Spira, 1976], um den kleinen Wert von auszunutzen $\sigma$ und den Huffman zu berechnen Baum in linearer Zeit von den sortierten Frequenzen. Dies ergibt eine Lösung in $O(n\lg\sigma)$
Es gibt einen -Algorithmus zum Berechnen äquivalenter Codes, wobei die Anzahl unterschiedlicher Codewortlängen ist [Belal und Elmasry]. $O(n 16^k)$ $k$

$O(n\min\{16^k,\lg\sigma\})$

Das -Ergebnis von STACS 2006 scheint falsch zu sein $O(nk)$ . Elmasry veröffentlichte 2010 auf ARXIV (http://arxiv.org/abs/cs/0509015) eine Version, in der -Operationen für unsortierte Eingaben und - Operationen für sortierte Eingaben $O(16^kn)$ $O(9^k \log^{2k-1} n)$

Ich sehe eine Analogie zur Komplexität der Berechnung der planaren konvexen Hülle, bei der Algorithmen in (sortierungsbasiert, als -Algorithmus für Huffmans Code) und in (Geschenk) Wrapping) wurden von Kirkpatricks und Seidels Algorithmus in (später erwies es sich als optimal mit der Komplexität der Form ). gegen legt die Möglichkeit eines Algorithmus mit der Komplexität oder sogar wobei die Anzahl der Codewörter der Länge ist $O(n\lg n)$ $O(n\lg n)$ $O(nh)$ $O(n\lg h)$ $O(nH(n_1,\ldots,n_k)$ $O(n\lg n)$ $O(nk)$ $O(n\lg k)$ $O(nH(n_1,\ldots,n_k)$ $n_i$ $i$ unter Verwendung der Analogie einer Kante der konvexen Hülle, die bedeckt, zeigt auf eine Codelänge, die Symbole bedeckt . $n_i$ $n_i$
Ein einfaches Beispiel zeigt, dass das Sortieren der (gerundeten) logarithmischen Werte der Frequenzen (in linearer Zeit im -Wort-RAM-Modell) keinen optimalen freien Präfixcode in linearer Zeit ergibt: $\theta(\lg n)$
- Für ist und $n=3$ $f_1=1/2-\varepsilon$ $f_2=f_3=1/4+\varepsilon$
- $\lceil\lg f_i\rceil=2$ damit die Protokollsortierung die Reihenfolge nicht ändert
- dennoch kosten zwei von drei Codes Bits mehr als optimal. $n/4$
Eine andere interessante Frage wäre, die Komplexität zu reduzieren, wenn groß ist, dh alle Codes unterschiedliche Längen haben: $k$
- Wenn zum Beispiel die Frequenzen alle einen unterschiedlichen log-Wert. In diesem Fall kann man die Frequenzen in linearer Zeit im -Wort-RAM sortieren und den Huffman-Code in linearer Zeit berechnen (da das Sortieren ihrer Protokollwerte ausreicht, um die Werte zu sortieren), was zu einer linearen Gesamtzeit führt , viel besser als die aus dem Algorithmus von Belal und Elmasry. $k=n$ $\theta(\lg n)$ $n^2$

cc.complexity-theory

— Jeremy
quelle

Es hat ein paar Jahre gedauert (fünf!), Aber hier ist eine teilweise Antwort auf die Frage:

http://arxiv.org/abs/1602.00023

Optimales Präfix für freie Codes mit teilweiser Sortierung Jérémy Barbay (Eingereicht am 29. Januar 2016)

Wir beschreiben einen Algorithmus, der einen optimalen Präfix-freien Code für n unsortierte positive Gewichte in der Zeit innerhalb von O (n (1 + lgα)) ⊆O (nlgn) berechnet, wobei die Abwechslung α∈ [1..n − 1] die Menge von misst für die Berechnung erforderliche Sortierung. Diese asymptotische Komplexität liegt in einem konstanten Faktor des Optimums im Rechenmodell des algebraischen Entscheidungsbaums, im schlimmsten Fall über alle Fälle von Größe n und Alternation α. Solche Ergebnisse verfeinern die Komplexität von Θ (nlgn) nach dem Stand der Technik im ungünstigsten Fall gegenüber Instanzen der Größe n im selben Rechenmodell, einem Meilenstein in Komprimierung und Codierung seit 1952, durch die bloße Kombination des van Leeuwen-Algorithmus zur Berechnung des optimalen Präfix Freie Codes aus sortierten Gewichten (seit 1976 bekannt), mit verzögerten Datenstrukturen zum teilweisen Sortieren eines Multisets in Abhängigkeit von den Abfragen (seit 1988 bekannt).

— Jeremy
quelle