Kommunikationskomplexität der Annäherung an die Größe der festgelegten Schnittmenge

Betrachten Sie das Problem der Schnittmenge: Alice und Bob erhalten jeweils eine Teilmenge von und möchten wissen, ob sich ihre Mengen überschneiden. Dies ist ein kanonisches Problem der Kommunikationskomplexität, und es ist bekannt, dass randomisierte Protokolle für dieses Problem -Kommunikationsbits erfordern ( siehe Übersicht hier ). In dem Fall, in dem die Mengen die Größe für , ist bekannt, dass randomisierte Protokolle -Bits erfordern ( siehe hier ). $\left\{ 1,\ldots, n\right\}$ $\Theta(n)$ $k$ $k \ll n$ $\Theta(k)$

Betrachten Sie nun die Variante, in der Alice und Bob die Größe des Schnittpunkts ihrer Mengen wissen wollen . Die Berechnung der exakten Größe reduziert sich eindeutig auf das Standardproblem der Satzkreuzung, und dies gilt auch dann, wenn nur eine multiplikative Approximation der Größe berechnet werden soll . Was passiert jedoch, wenn sie eine additive Näherung der Größe des Schnittpunkts berechnen möchten ? Ist eine Unter- oder Obergrenze für dieses Problem bekannt?

Diese Frage interessiert mich besonders bei der Einstellung kleiner Mengen, dh bei dem Fall, dass die Mengen die Größe $k \ll n$ .

reference-request communication-complexity

— Oder Meir
quelle

Die additive c-Approximation des Schnittpunkts zweier (n * 2 * c) -Bit-Sätze ist mindestens so schwierig wie die Berechnung des Schnittpunkts zweier n-Bit-Sätze. Wir reduzieren von letzterem auf erstere, indem wir jedes Bit zweimal kopieren und die Schnittgröße auf das nächste Vielfache von c runden.

— Daniello

Ich nehme an, die folgende Reduktion von der klassischen Mengen-Disjunktheit auf die additive Näherung würde Ihnen eine Untergrenze geben. Angenommen, es gibt ein Protokoll, das eine -Näherung erreicht. Die Spieler duplizieren jedes der ursprünglichen Bits zu Bits. Wenn es also keinen Schnittpunkt gibt, ist die Ausgabe höchstens , und wenn es einen Schnittpunkt gibt, sind es mindestens . Dies ergibt eine Untergrenze von .

α

$\alpha$

α = f (n)

$\alpha=f(n)$

n

$n$

3 f (n)

$3f(n)$

f (n)

$f(n)$

2 f (n)

$2 f(n)$

Ω (\frac{n}{3 f (n)})

$\Omega(\frac{n}{3f(n)})$

— Sajin Koroth

Vielen Dank! Wenn Sie Ihre Kommentare in Antworten umwandeln, werde ich sie akzeptieren.

— Oder Meir

Überschneiden sich nicht immer zwei Teilmengen von der Größe ?

{1, \dots, n}

$\{1, \ldots, n\}$

n

$n$

— Geoffrey Irving

Antworten:

Ich werde zwei Obergrenzen geben. Lassen und die Sätze zu Alice und Bob jeweils gegeben sein, und setzt,,. $A$ $B$ $a=|A|$ $b=|B|$ $c=|A\cap B|$

Erstens gibt es ein randomisiertes Protokoll, das bei und mit der Wahrscheinlichkeit eine Annäherung von bis zum additiven Fehler unter Verwendung von berechnet Kommunikationsbits und Zufallsbits. $d>0$ $\epsilon>0$ $\ge1-\epsilon$ $c$ $d$ $O\Bigl(\left(\frac{\min\{a,b\}}d\right)^2\log n\log\epsilon^{-1}\Bigr)$ $O\Bigl(\left(\frac{\min\{a,b\}}d\right)^2\log \min\{a,b\}\log\epsilon^{-1}\Bigr)$

Das Protokoll lautet wie folgt:

Wenn , beendet die Partei, die es sieht, das Protokoll und gibt als Schätzung aus. Andernfalls kommunizieren Alice und Bob und miteinander und bestimmen, welche kleiner ist. Ich werde unter wlog annehmen, dass . $d\ge\min\{a,b\}$ $0$ $a$ $b$ $a\le b$
Alice zeichnet unabhängige, gleichmäßig zufällige Stichproben , und sendet sie an Bob. $t=\log(2\epsilon^{-1})a^2/(2d^2)$ $a_i\in A$ $i<t$
Bob schätzt als. $c$ $\frac at|\{i<t:a_i\in B\}|$

Das Protokoll ist durch die Chernoff-Hoeffding-Grenzen korrekt: Wenn die Indikator-Zufallsvariable des Ereignisses , dann sind , , iid-Variablen mit dem Mittelwert . Somit ist und ähnlich für . $X_i$ $a_i\in B$ $X_i$ $i<t$ $p=c/a$

Pr [ein \bar{X.} \leq c - - d]] = Pr [\bar{X.} \leq p - - \frac{d}{ein}]] \leq \exp (- - 2 {(\frac{d}{ein})}^{2} t) \leq \frac{ϵ}{2},

$\Pr\left[a\overline X\le c-d\right]=\Pr\left[\overline X\le p-\tfrac da\right]\le\exp\left(-2\left(\tfrac da\right)^2t\right)\le\frac\epsilon2,$

Pr [a \bar{X} \geq c + d]

$\Pr\bigl[a\overline X\ge c+d\bigr]$

Nun, diese Grenzen sind etwas verschwenderisch, wenn : Es gibt auch variante Chernoff-Grenzen, die was es uns ermöglichen würde, mit der Anzahl der Abtastwerte auszukommen, die um einen Faktor von ungefähr kleiner sind . Das Problem ist, dass genau die Größe ist, die wir approximieren möchten, daher wissen wir es nicht im Voraus. Dies kann behoben werden, indem zunächst eine Schätzung des von . $c\ll a$

\begin{aligned} Pr [\bar{X.} \leq p - - δ]] & \leq \exp (- - \frac{δ^{2}}{2 p} t), \\ Pr [\bar{X.} \geq p + δ]] & \leq \exp (- - \frac{δ^{2}}{3 p} t), δ \leq p, \end{aligned}

$\begin{align} \Pr\left[\overline X\le p-\delta\right]&\le\exp\left(-\frac{\delta^2}{2p}t\right),\\ \Pr\left[\overline X\ge p+\delta\right]&\le\exp\left(-\frac{\delta^2}{3p}t\right),\qquad\delta\le p, \end{align}$

t

$t$

p

$p$

p = c / a

$p=c/a$

c

$c$

Das verbesserte Protokoll berechnet also mit der Wahrscheinlichkeit eine additive Approximation von Verwendung von Kommunikationsbits und Zufallsbits, und es geht wie folgt vor (die Konstanten sind nicht optimiert): $\ge1-\epsilon$ $d$ $c$ $O\Bigl(\frac{\min\{a,b\}}d\left(1+\frac cd\right)\log n\log\epsilon^{-1}\Bigr)$ $O\Bigl(\frac{\min\{a,b\}}d\left(1+\frac cd\right)\log \min\{a,b\}\log\epsilon^{-1}\Bigr)$

Das gleiche wie oben.
Alice zieht Zufallsstichproben aus und sendet sie an Bob. $r=10(\log\epsilon^{-1})a/d$ $A$
Bob zählt, wie viele dieser Proben zu gehören , und sendet diese Nummer ( ) an Alice. $B$ $s$
Wenn , wird das Protokoll mit Ausgang . $as/r\le d/2$ $0$
Alice zieht Zufallsstichproben , und sendet sie an Bob. $t=10sa/d$ $a_i\in A$ $i<t$
Bob schätzt als. $c$ $\frac at|\{i<t:a_i\in B\}|$

Ohne in die Details, begrenzt der Chernoff oben zitierte implizieren , dass mit hohen Wahrscheinlichkeit des Wert von ist , in welchem Fall das Protokoll nicht die angegeben Kosten nicht überschreitet und es berechnet mit hohen Wahrscheinlichkeit eine gute Schätzung von durch eine andere Anwendung von Chernoff-Grenzen. $s/r$ $\Theta(c/a)$ $c$

— Emil Jeřábek
quelle

Danke für die hilfreiche Antwort! Ich habe jedoch gerade festgestellt, dass ich vergessen habe zu erwähnen, dass ich mich mehr für den Fall interessiere, dass die Mengen im Vergleich zu klein sind . Gibt es eine Möglichkeit, Ihr Protokoll in dieser Einstellung zum Laufen zu bringen? Entschuldigung für die Verwirrung ...

n

$n$

— Oder Meir

Was meinst du mit additiver Approximation in einer solchen Umgebung?

— Emil Jeřábek

Ich wäre an einer Annäherung an jeden sinnvollen additiven Begriff interessiert, beginnend von einer Konstanten bis zu einer linearen Größe der Mengen.

— Oder Meir

Aber Fehler bis zu einem konstanten Bruchteil der Größe der Menge sind gleichbedeutend mit multiplikativer Approximation, nicht wahr?

— Emil Jeřábek

Oh, ich verstehe, Sie erlauben einen Bruchteil der Größe der beiden ursprünglichen Sätze, auch wenn der Schnittpunkt viel kleiner ist.

— Emil Jeřábek

[Emils Antwort ist eindeutig besser und einfacher, wenn Sie an dieser Art von Fehler interessiert sind, es sei denn, Sie benötigen aus irgendeinem Grund ein deterministisches Protokoll. Hoppla.]

Es gibt nichttriviale Protokolle, wenn Sie an additiven Näherungen vom Typ für kleine Konstanten interessiert sind . $\pm \delta n$ $\delta > 0$

Hier ist zum Beispiel eines:

Alice und Bob interpretieren ihre Menge jeweils als Grafik über Knoten, indem sie sich auf eine kanonische Zuordnung von den möglichen Mengenelementen zu den möglichen Kanten der Grafik einigen . $\approx \sqrt{n}$ $n$ $n$
Alice und Bob berechnen jeweils eine -regelmäßige Partition ihres Graphen. Sie senden sich gegenseitig ihre Partitionsbits ( ) plus die Dichte ihres Graphen zwischen jedem Paar von Partitionssätzen (z. B. Bits, wenn Dichten bis zu Bits mit numerischer Genauigkeit gemeldet werden). $(k, \varepsilon)$ $\widetilde{O}(\sqrt{n})$ $\widetilde{O}_{\varepsilon}(\sqrt{n})$ $\sqrt{n}$
Alice und Bob verwerfen nun Kanten, die für eine der beiden Partitionen: (a) beide Endpunkte innerhalb eines der Partitionssätze haben, (b) beide Endpunkte zwischen einem nicht regulären Satzpaar haben oder (c) ein Paar von kreuzen setzt in Alices Partition und in Bobs Partition so, dass ist ungewöhnlich klein. Sie werfen höchstens einen konstanten Bruchteil der Elemente weg , was einen additiven Fehler verursacht, aber kann durch Wahl von beliebig klein gemacht werden $(S_1^A, S_2^A)$ $(S_1^B, S_2^B)$ $max {Mindest {| {S.}_{1}^{EIN} \cap {S.}_{1}^{B.} |, | {S.}_{2}^{EIN} \cap {S.}_{2}^{B.} |}}, Mindest {| {S.}_{1}^{EIN} \cap {S.}_{2}^{B.} |, | {S.}_{2}^{EIN} \cap {S.}_{1}^{B.} |}}}}$ $\max\left\{ \min\{\left| S_1^A \cap S_1^B \right|, \left|S_2^A \cap S_2^B\right|\}, \min\{\left|S_1^A \cap S_2^B\right|, \left| S_2^A \cap S_1^B \right|\} \right\}$ $\delta > 0$ $\pm \delta n$ $\delta$ $k, \varepsilon$ . Die Schnittpunkte zwischen verbleibenden Elementen können durch statistische Standardmethoden genau geschätzt werden, da die Diagramme zwischen diesen Sätzen den Statistiken eines zufälligen zweigeteilten Diagramms mit der angegebenen Dichte entsprechen.

Wenn diese Art der Annäherung für Sie interessant ist, können Sie möglicherweise mehr Kilometer mit anderen Lemmas zur Regelmäßigkeit von Graphen erzielen, insbesondere mit Frieze-Kannan. Hier ist eine Umfrage.

— GMB
quelle

Vielen Dank! Die Verbindung zu Regelmäßigkeitspartitionen ist interessant.

— Oder Meir