Grenzen der Größe der kleinsten NFA für L_k-distinct

Betrachten Sie die Sprache $L_{k-distinct}$ die aus allen $k$ -letter-Zeichenfolgen über $\Sigma$ , sodass keine zwei Buchstaben gleich sind:

L k - d i s t i n c t : = {w = σ 1 σ 2 . . . σ k ∣ \forall i \in [k] : σ i \in Σ and \forall j \neq i : σ j \neq σ i}

$L_{k-distinct} :=\{w = \sigma_1\sigma_2...\sigma_k \mid \forall i\in[k]: \sigma_i\in\Sigma ~\text{ and }~ \forall j\ne i: \sigma_j\ne\sigma_i \}$

Diese Sprache ist endlich und daher regelmäßig. Insbesondere wenn $\left|\Sigma\right|=n$ , dann. $\left|L_{k-distinct}\right| = \binom{n}{k} k!$

Was ist der kleinste nicht deterministische endliche Automat, der diese Sprache akzeptiert?

Ich habe derzeit die folgenden losen oberen und unteren Schranken:

Die kleinste NFA, die ich konstruieren kann, hat -Zustände. $4^{k(1+o(1))}\cdot polylog(n)$
Das folgende Lemma impliziert eine Untergrenze von Zuständen: $2^k$

Sei $L ⊆ Σ^*$ eine reguläre Sprache. Angenommen, es gibt $n$ Paare $P = \{ (x_i, w_i) \mid 1 ≤ i ≤ n \}$ so dass $x_i\cdot w_j \in L$ genau dann, wenn $i=j$ . Dann hat jede NFA, die L akzeptiert, mindestens n Zustände.

Eine weitere (triviale) Untergrenze ist $log$ $n\choose k$ , das Protokoll der Größe des kleinsten DFA für die Sprache.

Ich interessiere mich auch für NFAs, die nur einen festen Bruch ( $0<\epsilon<1$ ) von akzeptieren $L_{k-distinct}$ , wenn die Größe des Automaten kleiner ist als $\epsilon\cdot 4^{k(1+o(1))}\cdot polylog (n)$ .

Bearbeiten: Ich habe gerade ein Kopfgeld angefangen, das einen Fehler im Text hatte.

Ich meinte, wir könnten annehmen, $k=polylog(n)$ während ich $k=O(log(n))$ .

Edit2:

Die Prämie wird bald enden. Wenn sich also jemand dafür interessiert, wie man sie vielleicht leichter verdient, sollten Sie die folgende Sprache in Betracht ziehen:

$L_{(r,k)-distinct} :=\{w : w$ enthält $k$ verschiedene Symbole und kein Symbol erscheint mehr als $r$ mal $\}$ .

(dh $L_{(1,k)-distinct} = L_{k-distinct}$ ).

Eine ähnliche Konstruktion wie die in den Kommentaren gibt für . $O(e^k\cdot 2^{k\cdot log(1+r)}\cdot poly(n))$ $L_{(r,k)-distinct}$

Kann das verbessert werden? Was ist die beste Untergrenze, die wir für diese Sprache anzeigen können?

— RB
quelle

Können Sie Ihre NFA mit Obergrenze beschreiben?

— mjqxxxx

Ich kann noch nicht darüber schreiben, da wir noch daran arbeiten und den Beweis noch nicht abgeschlossen haben. Stattdessen beschreibe ich einen viel einfacheren Automaten der Größe : Nehmen Sie eine -perfekte Hash-Familie . Jeder solche Hash ist eine Funktion . Dies bedeutet, dass für jede Teilmenge von der Größe höchstens eine Funktion so dass jedes Element der Teilmenge einer anderen Zahl zugeordnet wird. Nach dem Hashing hat das resultierende Alphabet Buchstaben, daher kann ein Auto der Größe die Sprache akzeptieren .

O((2e)k∗2O(log(k))∗log(n)) $O((2e)^k * 2^{O(log(k))} * log(n))$

(n,k) $(n,k)$

H $H$

h:[n]→[k] $h: [n] \to [k]$

[n] $[n]$

k $k$

h∈H $h\in H$

k $k$

2k $2^k$

Lk−distinct $L_{k-distinct}$

— RB

Die untere Grenze gibt nur die Anzahl der Zustände gezählt wird, in denen sich die NFA nach genau Schritten befinden kann. Ich glaube nicht, dass mir eine Beweismethode bekannt ist, die für die Gesamtgröße wesentlich bessere Grenzen bietet, als wenn man sich nur ansieht, was nach Schritten passiert , für einige . Aber hier gibt es für jedes eine NFA, die sich nach genau in nur einem von Zuständen befinden kann.

(2−o(1))k $(2-o(1))^k$

k/2 $k/2$

t $t$

(2+o(1))k $(2+o(1))^k$

t $t$

— Noam

Beweis (meiner vorherigen Behauptung): Der schwierigste Fall ist ; wähle verschiedene zufällige Teilmengen (der Alphabetsymbole) von genau jeder Größe und konstruiere eine NFA, die für jedes einen Zustand hat, zu dem ein Pfad führt, falls der erste Symbole sind alle verschieden und sind in enthalten und haben einen akzeptierenden Pfad davon, wenn die folgenden Symbole alle verschieden sind und im Komplement von . Ein Zählargument zeigt, dass whp (über der zufälligen Auswahl von

t=k/2 $t=k/2$

2k⋅poly(k,logn) $2^k \cdot poly(k, \log n)$

Si $S_i$

n $n$

t $t$

i $i$

t $t$

Si $S_i$

k−t $k-t$

Si $S_i$

Si $S_i$ s) Diese NFA wird in der Tat alle gewünschten Sprachen akzeptieren.

— Noam

In der vorherigen Konstruktion hat der einfachste Weg, die NFA zu erstellen, einen Zustand für jedes mögliche Präfix der Länge und für jedes mögliche Suffix der Länge . Stattdessen können der Präfixteil und der Suffixteil der NFA rekursiv mit der gleichen zufälligen Konstruktion erstellt werden (aber jetzt nur innerhalb von und seinem Komplement), und dies würde eine Gesamtgröße ergeben.

j<t $j < t$

j>k−t $j > k-t$

Si $S_i$

(4+o(1))k $(4+o(1))^k$

— Noam

Antworten:

Dies ist keine Antwort, sondern eine Methode, die meines Erachtens einer verbesserten Untergrenze überlassen würde. Kürzen wir das Problem, nachdem Brief gelesen wurde. Bezeichnen wir die Familie von Element Sätze von durch und die Familie der Element Sätze von durch . Bezeichnen Sie die Zustände, die nach dem Lesen der Elemente von (in beliebiger Reihenfolge) durch und die Zustände, aus denen ein akzeptierender Zustand nach dem Lesen der Elemente von (in beliebiger Reihenfolge) durch . Wir brauchen das genau dann, wenn $a$ $a$ $[n]$ $\mathcal A$ $b=k-a$ $[n]$ $\mathcal B$ $A$ $S_A$ $B$ $T_B$ $S_A\cap T_B\ne \emptyset$ $A\cap B=\emptyset$ . Dies gibt bereits eine Untergrenze für die erforderliche Anzahl von Zuständen und ich denke, es könnte etwas Nicht-Triviales geben.

Dieses Problem erfordert im Wesentlichen eine Untergrenze für die Anzahl der Eckpunkte eines Hypergraphen, dessen Liniendiagramm (teilweise) bekannt ist. Ähnliche Probleme wurden z. B. von Bollobas untersucht, und es gibt mehrere bekannte Beweismethoden, die nützlich sein können.

Update 2014.03.24: Wenn der obige Hypergraph tatsächlich auf Eckpunkten realisiert werden kann , erhalten wir auch ein nicht deterministisches Kommunikationskomplexitätsprotokoll mit der Länge für die eingestellte Disjunktion mit Eingabesätzen der Größe und (tatsächlich die beiden) Probleme sind gleichwertig). Der Engpass ist natürlich, wenn , dafür konnte ich in Eyal und Buch nur folgendes finden: durch das probabilistische Standardargument bewiesen. Leider konnte ich (noch) nicht genügend untere Schranken für dieses Problem finden, aber wenn das oben Genannte scharf ist, würde es eine untere Schranke geben $s$ $\log s$ $a$ $b$ $a=b=k/2$ $N^1(DISJ_a)\le \log \big(2^k \log_e {n\choose a}\big)$ $\Omega(2^k\log n)$ Vereinheitlichung der beiden von Ihnen genannten Untergrenzen.

— domotorp
quelle

Danke @domotorp für deine Antwort. Dies scheint dem Beweis des Lemmas sehr ähnlich zu sein, das ich in der ursprünglichen Frage für die Untergrenze verwendet habe, ohne jedoch die tatsächlichen und anzugeben und daher keine abzählbare Grenze. Ihr Kommentar zu der obigen Frage legt nahe, dass die Grenze mit dieser Methode nicht verbessert werden kann. Glauben Sie, dass dies besser funktionieren könnte?

xi $x_i$

yi $y_i$

2k $2^k$

— RB

Der springende Punkt meines obigen Kommentars war, dass diese Techniken keine untere Schranke über . Das ist wirklich das, was dieses Problem für mich interessant macht.

(2+o(1))k $(2+o(1))^k$

— Noam

@Noam: Sei k = 2, a = b = 1. Schon dann bekommen wir eine Untergrenze, da jeder anders sein muss.

logn $\log n$

SA $S_A$

— Domotorp

@domotorp: Das verbirgt einen -Faktor: Hier ist die Analyse für den schlimmsten Fall, in dem : Beginnen Sie mit einem festen und und wählen Sie zufällig eine Teilmenge von den Buchstaben haben wir dann . nun solcher Mengen zufällig aus, dann ist die Wahrscheinlichkeit, dass dies für mindestens eine von ihnen geschieht, . Wenn wir wir, dass whp dies für ALLE disjunkten Mengen und (der Größe

o(1) $o(1)$

O(klogn) $O(k\log n)$

a=b=k/2 $a=b=k/2$

A $A$

B $B$

S $S$

n $n$

Pr[A⊆SandB⊆Sc]=2−k $Pr[A \subseteq S \:and\: B \subseteq S^c]=2^{-k}$

r2k $r2^k$

1−exp(−r) $1-exp(-r)$

r=O(log(nk))=O(klogn) $r = O(\log {n \choose k}) = O(k \log n)$

A $A$

B $B$

k/2 $k/2$ ). Die Gesamtzahl solcher in dieser Konstruktion ist .

S $S$

O(2kklogn) $O(2^k k \log n)$

— Noam

@Noam: Es tut mir leid, aber ich habe noch nie ein in einem versteckt gesehen , zumal das Problem auch imho für interessant ist . Aber Sie haben Recht, dass RB nach gefragt hat .

logn $\log n$

o(1) $o(1)$

k<<logn $k<<\log n$

k=polylogn $k=polylog n$

— Domotorp

Einige Arbeiten in Arbeit:

Ich versuche eine Untergrenze von zu beweisen . Hier ist eine Frage, bei der ich mir ziemlich sicher bin, dass sie eine solche Untergrenze ergibt: Finde das Minimum so, dass es eine Funktion gibt , das Disjunktheit bewahrt, dh, dass iff . Ich bin mir ziemlich sicher, dass eine Untergrenze von fast sofort eine Untergrenze von für unser Problem bedeuten würde . entspricht ungefähr der Menge von Knoten, zu denen die NFA nach dem Lesen des ersten gelangen kann $4^k$ $t$ $f:\{S \subseteq [n], |S|=k/2 \} \rightarrow \{0,1\}^t$ $S_1 \cap S_2 = \emptyset$ $f(S_1) \cap f(S_2) = \emptyset$ $t \ge 2k$ $2^{2k}=4k$ $f(S)$ Symbole der Eingabe, wenn der Satz dieser Symbole . $k/2$ $k/2$ $S$

Ich denke, die Lösung für diese Frage könnte bereits bekannt sein, entweder in der Literatur zur Komplexität der Kommunikation (insbesondere in Artikeln, die sich mit dem Disjunktitätsproblem befassen; möglicherweise helfen einige Matrixrangargumente) oder in der Literatur zu Kodierungen (z . B. diese ).

— Mobius Knödel
quelle

Meine obigen Kommentare zeigen, dass dieser Ansatz

$(2+o(1))^n$

— Noam