Wie schnell können wir das Set-Inclusion-Poset einer Set-Familie berechnen?

Gegeben sei eine Menge Familie $\mathcal{F}$ von Teilmengen eines Universums $U$ . Sei $S_1,S_2 \in \mathcal F$ und wir wollen antworten, ist $S_1 \subseteq S_2$ .

Ich bin auf der Suche nach einer Datenstruktur, die es mir ermöglicht, diese schnell zu beantworten. Meine Anwendung basiert auf der Graphentheorie, bei der ich sehen möchte, ob beim Löschen eines Scheitelpunkts und seiner Umgebung isolierte Scheitelpunkte verbleiben und für jeden Scheitelpunkt alle isolierten Scheitelpunkte aufgelistet werden, die er hinterlässt.

Ich möchte das komplette Poset oder eventuell ein erstellen $|\mathcal{F}|^2$ Tabelle, die wahr falsch speichert und genau sagt, welche Mengen Teilmenge von einander sind.

Sei $m = \sum_{S\in \mathcal{F}} |S|$ , $u = |U|$ und $n = |\mathcal{F}|$ nehme an, $u,n \leq m$

Wir können die Erzeugung $n \times u$ Eindämmungs Matrix (die bipartite graph) in $O(un)$ Zeit und dann die Tabelle aller schaffen $n^2$ Vergleiche in $O(nm)$ Zeit für jeden Satz $S \in \mathcal{F}$ , eine Schleife durch alle Elemente aller anderen Mengen und markieren Sie die Menge als keine Teilmenge von $S$ wenn sie das Element nicht in $S$ . Insgesamt $O(nm)$ Zeit.

Können wir etwas schneller machen? Insbesondere ist $O((n+u)^2)$ Zeit möglich oder nicht?

Ich habe einige verwandte Artikel gefunden:

Ein einfacher subquadratischer Algorithmus zur Berechnung der Teilmengenordnung (1995), der einen $O(m^2 / log(m))$ Algorithmus ergibt .

Die Teilmengen-Teilreihenfolge: Computing and Combinatorics verbessert das oben Gesagte geringfügig, behauptet jedoch auch, dass das oben genannte Papier das Problem in -Zeit löst, $O(md)$ wobei $d$ die maximale Anzahl von Mengen ist, die sich ein gemeinsames Element teilen, aber ich konnte dieses Ergebnis nicht verstehen.

In dem Artikel Zwischen $O(nm)$ und $O(n^{\alpha})$ zeigen die Autoren, wie in einem Diagramm die verbundenen Komponenten nach dem Löschen der geschlossenen Nachbarschaft eines Scheitelpunkts unter Verwendung der Matrixmultiplikation gefunden werden. Dies kann verwendet werden, um das Set Inclusion Poset zu berechnen, indem alle Komponenten gefunden werden, die Singletons mit einer Laufzeit von $O((n+u)^{2.79})$ .

Auch diese Forumsdiskussion steht im Zusammenhang mit: Was ist der schnellste Weg, um die Einbeziehung von Sets zu überprüfen? was eine Untergrenze von impliziert $O(n^{2-\epsilon})$ .

graph-algorithms ds.data-structures partial-order

— Martin Vatshelle
quelle

Nur ein Vorschlag: Könnten Sie die Frage vereinfachen, indem Sie

? Oder sind beide Parameter für Ihre Anwendung wichtig?

u = n

$u=n$

— Colin McQuillan

In meiner Anwendung habe ich

Mittel asymptotisch kleiner.

u << n << 2^{u}

$u << n << 2^u$

<<

$<<$

— Martin Vatshelle

Wenn die Zufälligkeit in Grenzen liegt, besteht eine grobe Idee darin, eine Reihe von "zufälligen monotonen Signatur" -Funktionen zu generieren und diese zur Approximation der Teilmengenrelation zu verwenden (a la Bloom-Filter). Leider weiß ich nicht, wie ich daraus einen praktischen Algorithmus machen kann, aber hier sind einige Schätzungen, die die Idee nicht sofort für unmöglich halten. Dies ist sehr weit von einer nützlichen Lösung entfernt, aber ich werde es aufschreiben, falls es hilft.

Nehmen Sie der Einfachheit halber an, dass alle Mengen fast gleich groß sind, sagen wir und das . Wir können davon ausgehen , sonst sind wir fertig. Definiere $|S| = s \pm O(1)$ $s = o(u)$ $1 \ll s$ Man beachte, dass.

\begin{aligned} q & = [s / 2] \\ p & = [\frac{(\binom{u}{q})}{(\binom{s}{q})}] \end{aligned}

$\begin{aligned} q &= [s/2] \\ p &= \left[\frac{u \choose q}{s \choose q}\right] \end{aligned}$

p ≫ 1

$p \gg 1$

$p$ $A_1, \ldots, A_p \subset U$ $q$ $f : 2^U \to \{0,1\}$ $f(S) = 1$ $A_i \subset S$ $i$ $S$ $A_i,f$ Damonoton ist,impliziert. Wenn,etwas

\begin{aligned} Pr (f (S) = 0) & = Pr (\forall i . A_{i} ⊄ S) \\ = Pr (A_{1} ⊄ S)^{p} \\ = {(1 - (\binom{s}{q}) / (\binom{u}{q}))}^{p} \\ = e^{- Θ (1)} \end{aligned}

$\begin{aligned} \Pr(f(S) = 0) &= \Pr(\forall i. A_i \not\subset S) \\ &= \Pr(A_1 \not\subset S)^p \\ &= \left(1 - {s \choose q}/{u \choose q}\right)^p \\ &= e^{-\Theta(1)} \end{aligned}$

f (S)

$f(S)$

S \subset T

$S \subset T$

f (S) \leq f (T)

$f(S) \le f(T)$

T ⊄ S

$T \not\subset S$

t \in T - S

$t \in T-S$ . Die Wahrscheinlichkeit, dass

erkennt, ist

f

$f$

T ⊄ S

$T \not\subset S$

Einige dieser Schritte sind ziemlich schwierig, aber ich habe heute Abend keine Zeit, sie zu verbessern. In jedem Fall ist es nicht eindeutig unmöglich, zufällig Signaturfunktionen zu generieren, bei denen es wahrscheinlich ist, dass Teilmengen von Nicht-Teilmengen unterschieden werden. Eine logarithmische Anzahl solcher Funktionen würde dann alle Paare korrekt unterscheiden. Wenn Erzeugen einer Signaturfunktion

und Berechnen

könnte reduziert werden

\begin{aligned} Pr (f (S) = 0 < 1 = f (T)) & = Pr (f (S) = 0) Pr (f (T) = 1 | f (S) = 0) \\ = e^{- Θ (1)} Pr (\exists i . A_{i} \subset T, A_{i} \cap T - S \neq 0 | f (S) = 0) \\ = e^{- Θ (1)} Pr (\exists i . t \in A_{i} \subset T | f (S) = 0) \\ \leq e^{- Θ (1)} Pr (\exists i . t \in A_{i} \subset T) \\ \approx e^{- Θ (1)} p Pr (t \in A_{1} \subset T) \\ \leq e^{- Θ (1)} p (\binom{s}{q - 1}) / (\binom{u}{q}) \\ \approx e^{- Θ (1)} p \frac{q}{s - q} (\binom{s}{q}) / (\binom{u}{q}) \\ = e^{- Θ (1)} \end{aligned}

$\begin{aligned} \Pr(f(S) = 0 < 1 = f(T)) &= \Pr(f(S) = 0) \Pr(f(T) = 1 | f(S) = 0) \\ &= e^{-\Theta(1)} \Pr(\exists i. A_i \subset T, A_i \cap T-S \ne 0 | f(S) = 0) \\ &= e^{-\Theta(1)} \Pr(\exists i. t \in A_i \subset T | f(S) = 0) \\ &\le e^{-\Theta(1)} \Pr(\exists i. t \in A_i \subset T) \\ &\approx e^{-\Theta(1)} p \Pr(t \in A_1 \subset T) \\ &\le e^{-\Theta(1)} p {s \choose q-1} / {u \choose q} \\ &\approx e^{-\Theta(1)} p \frac{q}{s-q} {s \choose q} / {u \choose q} \\ &= e^{-\Theta(1)} \end{aligned}$

f

$f$

f (S)

$f(S)$

Zeit, wäre das Ergebnis ein Gesamt

\tilde{O} (n + u)

$\tilde{O}(n+u)$

Algorithmus.

\tilde{O} (n^{2} + u^{2})

$\tilde{O}(n^2+u^2)$

Selbst wenn die obigen Berechnungen korrekt sind, habe ich keine Ahnung, wie man schnell monotone Signaturfunktionen mit den gewünschten Merkmalen erzeugt. Es ist auch wahrscheinlich, dass sich diese Technik nicht auf signifikant unterschiedliche Satzgrößen erstreckt.

— Geoffrey Irving
quelle