Informationstheorie zum Nachweis ordentlicher kombinatorischer Aussagen?


54

Was sind Ihre Lieblingsbeispiele, bei denen die Informationstheorie verwendet wird, um eine übersichtliche kombinatorische Aussage auf einfache Weise zu beweisen?

Einige Beispiele, die ich mir vorstellen kann, beziehen sich auf Untergrenzen für lokal dekodierbare Codes, z. B. in diesem Artikel: Nehmen wir an, dass für ein Bündel von Binärzeichenfolgen der Länge gilt, dass für jedes , für unterschiedlich Paare { },Dann ist m in n mindestens exponentiell, wobei der Exponent linear vom mittleren Verhältnis von abhängt .x1,...,xmnikij1,j2

ei=xj1xj2.
ki/m

Ein weiteres (verwandtes) Beispiel sind einige isoperimetrische Ungleichungen im Booleschen Würfel (Sie können dies gerne in Ihren Antworten erläutern).

Hast du noch mehr schöne Beispiele? Am liebsten kurz und einfach zu erklären.


Kann jemand einen Verweis auf "Ein weiteres (verwandtes) Beispiel sind einige isoperimetrische Ungleichungen im Booleschen Würfel" geben?
VZN

Antworten:


40

Mosers Beweis für das konstruktive Lovasz Local Lemma . Er zeigt im Grunde genommen, dass unter den Bedingungen des lokalen Lemmas der zweiteinfachste Algorithmus für SAT funktioniert, den man sich vorstellen kann. (Die einfachste Möglichkeit besteht darin, eine zufällige Zuweisung zu versuchen, bis eine funktioniert. Die einfachste besteht darin, eine zufällige Zuweisung auszuwählen, eine unzufriedene Klausel zu finden, sie zu erfüllen und dann zu prüfen, welche anderen Klauseln Sie gebrochen, rekursiv und wiederholt haben, bis sie fertig sind.) Der Beweis, dass dies in polynomialer Zeit abläuft, ist vielleicht die eleganteste Anwendung der Informationstheorie (oder der Kolmogorov-Komplexität, wie auch immer Sie sie in diesem Fall nennen möchten), die ich je gesehen habe.


1
Der schöne Kolmogorov-Komplexitätsbeweis von Moser wird hier erklärt: blog.computationalcomplexity.org/2009/06/… , aber ich muss zugeben, ich habe mehr nach einem Beispiel für Entropie / gegenseitige Information / Berechnung gesucht ...
Dana Moshkovitz

Es gibt einige ziemlich interessante Anwendungen von Komplexität Kolmogorov als Antworten auf diese Frage gegeben: cstheory.stackexchange.com/questions/286
arnab

Terry Tao diskutierte auch Mosers Argument auf seinem Blog: terrytao.wordpress.com/2009/08/05/…
Anthony Leverrier

5
In seinem zweiten Aufsatz (mit Tardos) müssen Sie eigentlich nicht mehr auf Rekursion zurückgreifen. Sie suchen einfach nach einer nicht erfüllten Klausel, wählen eine zufällige Zuweisung für ihre Variablen aus und iterieren . Das ist es. Aus irgendeinem Grund ist der einfachere Algorithmus (mit der gleichen Analyse) nicht hängen geblieben.
Yuval Filmus

@DanaMoshkovitz: Ich weiß nicht, warum mir das nicht eingefallen ist, als Antwort auf Ihren Kommentar zu sagen: Komplexität und Entropie von Kolmogorov sind in vielerlei Hinsicht im Wesentlichen gleichwertig. Siehe z. B. Hammer-Romaschenko-Shen-Vershchagin: dx.doi.org/10.1006/jcss.1999.1677 . Zum Beispiel kann basierend auf [HRSV] der Beweis von Shearers Lemma in Arnabs Antwort mit im Wesentlichen demselben Beweis unter Verwendung der Kolmogorov-Komplexität anstelle der Entropie bewiesen werden. Der Unterschied ist nur Sichtweise: K handelt von der Beschreibungslänge, H handelt von ... Manchmal ist einer einfacher / natürlicher als der andere. pilogpi
Joshua Grochow

33

Mein Lieblingsbeispiel dieser Art ist der entropiebasierte Beweis von Shearers Lemma. (Ich habe von diesem und einigen anderen sehr schönen Beweisen von Jaikumar Radhakrishnans Entropie und Zählung erfahren .)

Behauptung: Angenommen, Sie haben Punkte in , die unterschiedliche Projektionen auf der Ebene, unterschiedliche Projektionen auf der Ebene und unterschiedliche Projektionen auf der Ebene haben. Dann ist .R 3 n x y z n y x z n z x y n 2n x n y n znR3nxyznyxznzxyn2nxnynz

Beweis: Sei ein Punkt, der gleichmäßig zufällig aus den Punkten ausgewählt wird. Sei , , die Projektion auf die , und Ebene. n p x p y p z y z x z x yp=(x,y,z)npxpypzyzxzxy

Einerseits ist , , und nach den grundlegenden Eigenschaften der Entropie.H [ p x ] log n x H [ p y ] log n y H [ p z ] log n zH[p]=lognH[px]lognxH[py]lognyH[pz]lognz

Andererseits haben wir und auch Addiert man die letzten drei Gleichungen, so erhält man: , wobei wir die Tatsache verwendeten, dass die Konditionierung die Entropie verringert (im Allgemeinen für beliebige Zufallsvariablen ).H [ p x ] = H [ y ] + H [ z | y ] H [ p y ] = H [ x ] + H [ z | x ] H [

H[p]=H[x]+H[y|x]+H[z|x,y]
H[px]=H[y]+H[z|y]
H[py]=H[x]+H[z|x]
H [ p x ] + H [ p y ] + H [ p Z ] = 2 H [ x ] + H [ y ] + H [ y | x ] + H [ z | x ] + H [ z
H[pz]=H[x]+H[y|x]
H[px]+H[py]+H[pz]= 2H[x]+H[y]+ H[y|x]+ H[z|x] 2 H [ x ] + 2 H [ y | x ] + 2 H [ z | x , y ] = 2 H [ p ] H [ a ] H [ a | b ] a , b+H[z|y] 2H[x]+2H[y|x]+2H[z|x,y]= 2H[p]H[a]H[a|b]a,b

Wir haben also oder .n 2n x n y n z2lognlognx+logny+lognzn2nxnynz


6
Ein verwandtes Papier, das untersucht werden sollte, ist 'Hypergraphs, Entropy and Inequalities' von Ehud Friedgut. Es zeigt, wie eine Entropieperspektive, insbesondere ein verallgemeinertes Shearer-Lemma, auf einfache Weise viele Standard-Ungleichungen und auch einige nichtstandardisierte, kompliziert aussehende Ungleichungen wiederherstellen kann. Ich denke, es gibt eine aufschlussreiche Perspektive. Link: ma.huji.ac.il/~ehudf/docs/KKLBKKKL.pdf
Andy Drucker

26

Radhakrishnans Entropiebeweis nach dem Satz von Bregman, dass die Anzahl der perfekten Übereinstimmungen in einem zweigeteilten Graphen höchstens . Der Beweis verwendet zwei sehr clevere Ideen. Hier ist eine Skizze des Beweises:( L R , E ) v L ( d ( v ) ! ) 1 / d ( v )p(LR,E)vL(d(v)!)1/d(v)

  • Wählen Sie ein perfekt passendes gleichmäßig aus. Die Entropie dieser Variablen ist .H ( M ) = log pMH(M)=logp
  • Für sei der Vertex in , der mit in übereinstimmt .X v R v MvLXvRvM
  • Die Variable hat die gleiche Information wie , also .M H ( M ) = H ( X )X=(Xv:vL)MH(M)=H(X)
  • Clevere Idee 1: Indem Radhakrishnan zufällig (und gleichmäßig) eine Ordnung auf auswählt , liefert er eine "randomisierte Kettenregel", die besagt, dass .L H ( X ) = Σ v L H ( X v | X u : u < V , )LH(X)=vLH(Xv|Xu:u<v,)
  • Aus den Informationen in den Bedingungen ( ) können wir bestimmen (ungefähr: die Anzahl der Auswahlmöglichkeiten für Matching ). N v = | N(v) X u : u < v | vXu:u<v,Nv=|N(v)Xu:u<v|v
  • Da aus diesen Informationen bestimmt wird, ändert sich die konditionierte Entropie nicht in der Gleichheit . H ( X v | X u : u < v , ) = H ( X v | X u : u < v , , N v )NvH(Xv|Xu:u<v,)=H(Xv|Xu:u<v,,Nv)
  • Clevere Idee 2: Indem wir die Information "vergessen" , können wir nur die Entropie erhöhen: .H( X v | X u : u < V ,, N v )H( X v | N v )Xu:u<v,H(Xv|Xu:u<v,,Nv)H(Xv|Nv)
  • Verrückte Tatsache: Die Variable ist gleichmäßig auf die Menge .1 , , d ( v )Nv1,,d(v)
  • Um nun die Entropie zu berechnen, wir alle Werte von :N v H ( X v | N v ) = Σ d ( v ) i = 1 1H(Xv|Nv)NvH(Xv|Nv)=i=1d(v)1d(v)H(Xv|Nv=i)1d(v)i=1d(v)logi=log((d(v)!)1/d(v)).
  • Das Ergebnis folgt aus der Kombination aller Ungleichungen und der Aufnahme von Exponenten.

Die Verallgemeinerung dieser Ungleichung ist das Kahn-Lovász-Theorem: Die Anzahl der perfekten Übereinstimmungen in jedem Graphen beträgt höchstens . Ein Entropie-Beweis für dieses Ergebnis wurde von Cutler und Radcliffe erbracht .Π v V ( G ) ( d ( v ) ! ) 1 / 2 d ( v )GvV(G)(d(v)!)1/2d(v)


1
Tolles Beispiel! Ein kleiner Punkt: Wenn Sie schätzen , können Sie wahrscheinlich nur sagen, dass durch oben begrenzt ist . H ( X v | N V = i ) log iH(XvNv)H(XvNv=i)logi
Srikanth

Sie sind absolut korrekt und ich habe die Antwort bearbeitet, um eine Ungleichung zu verwenden.
Derrick Stolee

20

Sehr schöne Beispiele sind in zwei Arbeiten von Pippenger Eine informationstheoretische Methode in der kombinatorischen Theorie enthalten. J. Comb. Theorie, Ser. A 23 (1): 99-104 (1977) und Entropie und Aufzählung von Booleschen Funktionen. IEEE-Transaktionen zur Informationstheorie 45 (6): 2096-2100 (1999). Tatsächlich enthalten einige Arbeiten von Pippenger niedliche Beweise für kombinatorische Tatsachen mittels Entropie / gegenseitiger Information. Auch die beiden Bücher Jukna, Extremale Kombinatorik mit Anwendungen in der Informatik und Aigner, Kombinatorische Suche enthalten einige schöne Beispiele. Mir gefallen auch die beiden Arbeiten von Madiman et al. Informationstheoretische Ungleichungen in der additiven Kombinatorik und Schätzungen von Terence Tao, Entropie-Summensätzen (Sie finden sie mit Google Scholar). Ich hoffe es hilft.


Sieht nach einer tollen Leseliste aus!
Dana Moshkovitz

17

Ein weiteres gutes Beispiel ist Terry Taos alternativer Beweis für das Regelmäßigkeits-Lemma des Szemerédi-Graphen . Er verwendet eine informationstheoretische Perspektive, um eine starke Version des Regelmäßigkeits-Lemmas zu beweisen, was sich als äußerst nützlich für seinen Beweis des Regelmäßigkeits-Lemmas für Hypergraphen herausstellt . Taos Beweis ist bei weitem der prägnanteste Beweis für das Regelmäßigkeits-Lemma des Hypergraphen.

Lassen Sie mich versuchen, diese informationstheoretische Perspektive auf einer sehr hohen Ebene zu erklären.

Angenommen, Sie haben einen zweigliedrigen Graphen , bei dem die beiden Scheitelpunktmengen und und die Kantenmenge E eine Teilmenge von . Die Kantendichte von ist. Wir sagen ist -regelmäßige , wenn für alle und , die Kantendichte des Subgraphen induziert durch und ist.V 1 V 2 V 1 × V 2 G ρ = | E | / | V 1 | | V 2 | G ϵ U 1V 1 U 2V 2 U 1 U 2 ρ ± ϵ | U 1 | | U 2 | / | V 1 | | V 2 |GV1V2V1×V2Gρ=|E|/|V1||V2|GϵU1V1U2V2U1U2ρ±ϵ|U1||U2|/|V1||V2|

Es sei nun erwogen, einen Scheitelpunkt aus und einen Scheitelpunkt aus unabhängig und gleichmäßig zufällig auszuwählen . Wenn klein ist und groß sind, können wir die Unregelmäßigkeit von so interpretieren , dass die Bedingung in und in keinen großen Einfluss auf die Wahrscheinlichkeit hat, dass bildet Kante in . Mit anderen Worten, auch nachdem wir die Information erhalten haben, dass in und istV 1 x 2 V 2U 1 , U 2G x 1 U 1 × 2 U 2 ( x 1 , x 2 ) G x 1 U 1 × 2 U 2 ( x 1 , x 2 )x1V1x2V2ϵU1,U2ϵGx1U1x2U2(x1,x2)Gx1U1x2 ist in , wir haben nicht viele Informationen darüber erhalten, ob eine Kante ist oder nicht.U2(x1,x2)

Das Szemeredi-Regularitäts-Lemma (informell) garantiert, dass für jeden Graphen eine Partition von und eine Partition von in Teilmengen konstanter Dichte gefunden werden kann, so dass für die meisten dieser Paare von Teilmengen die induzierte Untergraph auf ist -regular. Unter Berücksichtigung der obigen Interpretation ist es bei zwei Variablen mit hoher Entropie und und bei jedem Ereignis möglich, Variablen mit niedriger Entropie und - "low- Entropie ", weil die Teilmengen undV 2 U 1V 1 , U 2V 2 U 1 × U 2x 1 × 2 E ( x 1 , x 2 ) U 1 ( x 1 ) U 2 ( x 2 ) U 1 U 2 E x 1 | U 1 x 2 | U 2 xV1V2U1V1,U2V2U1×U2ϵx1x2E(x1,x2)U1(x1)U2(x2)U1U2 haben eine konstante Dichte - so dass ungefähr unabhängig von und , oder dass die gegenseitige Information zwischen den Variablen sehr klein ist. Tatsächlich formuliert Tao mit diesem Setup eine viel stärkere Version des Regelmäßigkeits-Lemmas. Zum Beispiel verlangt er nicht, dass und unabhängige Variablen sind (obwohl es noch keine Anwendung dieser Verallgemeinerung gegeben hat). Ex1|U1x2|U2x 2x1x2


15

Grundsätzlich gibt es einen ganzen Kurs, der sich dieser Frage widmet:

https://catalyst.uw.edu/workspace/anuprao/15415/86751

Der Kurs ist noch nicht abgeschlossen. Zum jetzigen Zeitpunkt sind also nicht alle Notizen verfügbar. Auch einige Beispiele aus dem Kurs wurden bereits erwähnt.


3
netter hinweis: sieht nach einer tollen klasse aus.
Suresh Venkat

1
Soweit ich das beurteilen kann, handelt es sich bei diesem Angebot um ein halbes Seminar mit Beispielen, die meine Frage gut beantworten, und ein halbes Seminar, das Beispiele wie Kommunikationsuntergrenzen, Extraktoren, parallele Wiederholungen usw. enthält, die viel mehr erfordern als nur Informationstheorie (hier gibt es keine Notizen, nur Links zu den Originalarbeiten).
Dana Moshkovitz

7

Angenommen, wir haben Punkte in und möchten eine Dimensionsreduktion durchführen. Wenn wir wollen, dass sich die paarweisen Abstände um höchstens ändern , können wir unsere Dimension von auf reduzieren . Das ist Johnson-Lindenstrauss Lemma . Für ein Jahrzehnt war die bekannteste Untergrenze für eine Dimension von Alon, daher gab es eine Lücke mit der Größe . Vor kurzem haben Jayram und Woodruff geschlossend 2 1 ± d O ( log n / 2 ) Ω ( log n / ( 2 log ( 1 /) ) ) log ( 1 /)n2d1±ϵdO(logn/ϵ2)Ω(logn/(ϵ2log(1/ϵ)))log(1/ϵ)diese Lücke durch die Verbesserung der unteren Grenze Alons. Ihr Beweis beruht kaum auf der geometrischen Struktur. Sie beweisen, dass eine bessere Bindung eine bestimmte untere Grenze der Kommunikationskomplexität verletzen würde, wenn sie möglich wäre. Und diese Schranke wird mit informationstheoretischen Mitteln bewiesen.


4
Ein weiteres Beispiel für metrische Einbettungen: Regev hat kürzlich einen sehr kurzen Beweis für die besten Grenzen für die Einbettung in unter Verwendung von Entropieargumenten gezeigt. 1d
Arnab

Es scheint sehr natürlich und schön, dass diese rein geometrischen Ergebnisse von TCS-Leuten bewiesen wurden!
Ilyaraz

6

Betrachten Sie das folgende ziemlich grundlegende Problem in der Welt der Datenstrukturen. Sie haben ein Universum der Größe . Sie wollen ein Element speichern als statische Datenstruktur, so dass , wenn ein Benutzer , wenn wissen will , für einig , ob , nur - Bit - Sonden in die Datenstruktur benötigt werden , , wobei eine feste Konstante ist. Ziel ist es, die Platzkomplexität der Datenstruktur (in Bezug auf die Anzahl der gespeicherten Bits) zu minimieren.mu[m]x[m]x=utt

Man kann eine solche Datenstruktur der Größe aufbauen . Die Idee ist einfach. Teilen Sie die Bits, die zur Beschreibung von benötigt werden, in Blöcke auf. Speichern Sie für jedes und für jede mögliche Verzerrung der Länge in der Datenstruktur, ob der -te Block von dieser Bitfolge entspricht.O(m1/t)logmuti[t](logm)/tiu

Nun zur unteren Grenze. Sei ein Element, das gleichmäßig zufällig aus . Es ist klar, dass . Wenn die Bits sind, die in der Datenstruktur (möglicherweise adaptiv) in dieser Reihenfolge werden , dann gilt: , wobei die Größe der Datenstruktur ist. Dies ergibt: .X[m]H[X]=logmX1,,XttH[X]=H[X1]+H[X2|X1]++H[Xt|X1,,Xt1]tlogsssm1/t

Enge Grenzen sind nicht bekannt, wenn zwei Elemente und gespeichert werden sollen . Sehen Sie hier für die besten Ergebnisse in dieser Richtung.t>1


5

Ein gutes Beispiel ist die Arbeit " Sorting and Entropy " von Kahn und Kim. Die Entropiemethode wird verwendet, um einen Algorithmus zu finden, der bei einer bekannten Posette und einer unbekannten linearen Erweiterung von die lineare Erweiterung durch Abfragen wobei die Menge der linearen Erweiterungen von .P O ( log | X | ) X PPPO(log|X|)XP


3

Average-Case-Analyse von Algorithmen mit Kolmogorov-Komplexität von Jiang, Li, Vitanyi.

Die Analyse der durchschnittlichen Komplexität von Algorithmen ist ein sehr praktisches, aber sehr schwieriges Problem in der Informatik. In den letzten Jahren haben wir gezeigt, dass die Kolmogorov-Komplexität ein wichtiges Werkzeug für die Analyse der durchschnittlichen Komplexität von Algorithmen ist. Wir haben die Inkompressibilitätsmethode entwickelt [7]. In diesem Artikel werden einige einfache Beispiele verwendet, um die Leistungsfähigkeit und Einfachheit dieser Methode weiter zu demonstrieren. Wir beweisen Grenzen für die durchschnittliche Anzahl von Stapeln (Warteschlangen), die zum Sortieren von sequentiellem oder parallelem Queueusort oder Stacksort erforderlich sind. '

Siehe auch zB Kolmogorov-Komplexität und ein Dreiecksproblem vom Typ Heilbronn .


3

Die Äquivalenz von Sampling und Suche nach Scott Aaronson. Hier zeigt er die Gleichwertigkeit des Stichproben- und Suchproblems in der Komplexitätstheorie in Bezug auf die Gültigkeit der Extended Church-Turing Thesis. Die Standardinformationstheorie, die algorithmische Informationstheorie und die Kolmogorov-Komplexität werden in grundlegender Weise verwendet.

Er betont:
" Lassen Sie uns betonen, dass wir die Komplexität von Kolmogorov nicht nur als technische Annehmlichkeit oder als Abkürzung für ein Zählargument verwenden. Vielmehr scheint die Komplexität von Kolmogorov selbst für die Definition eines Suchproblems unerlässlich zu sein. "


0

Dies ist einfach und auch eine Annäherung: Wie viele Kombinationen von 10 6 Dingen aus 10 9 , die Duplikate zulassen? Die richtige Formel lautet

N = (10 6 + 10 9 )! / (10 6 ! 10 9 !) ~ = 2 11409189.141937481

Aber stellen Sie sich vor, Sie geben Anweisungen, wie Sie eine Reihe von einer Milliarde Eimern entlang laufen und dabei eine Million Murmeln in die Eimer werfen sollen. Es gibt ~ 10 9 "Schritt zum nächsten Eimer" -Anweisungen und 10 6 "Murmel fallen lassen" -Anweisungen. Die Gesamtinformation ist

log 2 (N) ~ = -10 6 log 2 (10 6 / (10 6 + 10 9 )) - 10 9 log 2 (10 9 / (10 6 + 10 9 )) ~ = 11409200.432742426

Das ist ein lustiger, aber ziemlich guter Weg, um die (Protokoll der) Zählung zu approximieren. Ich mag es, weil es funktioniert, wenn ich vergesse, wie man Combinatorics macht. Es ist gleichbedeutend damit

(a + b)! / ein! b! ~ = (a + b) (a + b) / a a b b

Das ist, als würde man Stirlings Annäherung verwenden, annullieren und etwas verpassen.


2
Dies ist möglicherweise besser lesbar, wenn Sie die allgemeinen und nicht die spezifischen Zahlen eingeben. Ich denke, Sie sprechen von der entropiebasierten Annäherung des Volumens einer Hamming-Kugel.
Sasho Nikolov

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.