Enthält eine bestimmte reguläre Sprache eine unendliche Präfix-freie Teilmenge?

Eine Reihe von Wörtern über einem endlichen Alphabet ist ohne Präfix, wenn es keine zwei unterschiedlichen Wörter gibt, bei denen eines ein Präfix des anderen ist.

Die Frage ist:

Wie komplex ist es zu prüfen, ob eine als NFA angegebene reguläre Sprache eine unendliche Präfix-freie Teilmenge enthält?

Antwort (aufgrund von Mikhail Rudoy, hier unten) : Es kann in Polynomzeit gemacht werden, und ich denke sogar in NL.

Um Mikhails Antwort zu paraphrasieren, sei $(\Sigma,q_0,F,\delta)$ die eingegebene NFA in der normalen Form (keine Epsilonübergänge, Trimmen) und sei $L[p,r]$ (bzw. $L[p,R]$ ) die Sprache, die durch den Zustand $p$ als Anfangszustand und $\{r\}$ als Endzustand erhalten wird (bzw. den Zustand $p$ als Anfangszustand und die Menge $R$ als Endzustand). Für ein Wort $u$ lass $u^\omega$ sei das unendliche Wort, das durch Iteration von $u$ .

Folgendes ist äquivalent:

Die Sprache $L[q_0,F]$ enthält eine unendliche Präfix-freie Teilmenge.
$\exists q \in Q$ , $\exists u \in L[q,q]\smallsetminus\{\varepsilon\}$ $\exists v \in L[q,F]$ so dass $v$ kein Präfix von $u^\omega$ .
$\exists q \in Q$ $L[q,q] \neq \{\varepsilon\}$ $\forall u \in L[q,q]$ $\exists v \in L[q,F]$ so dass $v$ kein Präfix von $u^\omega$ .

Beweis:

3 $\Rightarrow$ 2 trivial.

Für 2 $\Rightarrow$ 1 genügt es , dass für jeden zu sehen , $w \in L[q_0,q]$ haben wir , dass $w (u^{|v|})^* v$ ist eine unendliche prefix freie Teilmenge von $L[q_0,F]$ .

Schließlich ist 1 $\Rightarrow$ 3 der "Korrektheitsbeweis" in Mikhails Antwort.

— Googlo
quelle

Antworten:

Ihr Problem kann in Polynomzeit gelöst werden.

Konvertieren Sie zunächst die angegebene NFA in eine entsprechende NFA mit den folgenden zusätzlichen Eigenschaften:

Es gibt keine Epsilon-Übergänge
Alle Zustände sind vom Startzustand aus erreichbar

Hilfreiche Unterroutine

Angenommen, wir haben eine NFA $N$ , einen Zustand $q$ und eine nicht leere Zeichenfolge $s$ . Die folgende Sub - Routine wird uns den Wahrheitswert der folgenden Aussage zu bewerten: „jeden Weg in $N$ vom Zustand $q$ zu einem akzeptieren Zustand entspricht einer Zeichenfolge, die ein Präfix der Zeichenfolge $s^n$ für einige $n$ .“ Darüber hinaus wird diese Unterroutine in Polynomzeit ausgeführt.

Konstruieren Sie zunächst die NFA $S$ mit $|s| + 1$ Zustände, die alle Zeichenfolgen akzeptieren, die keine Präfixe von $s^n$ für $n$ ( $|s|$ Nichtakzeptanzzustände in einer Schleife, um zu verfolgen, wo im "Muster" von $sssss\ldots$ wir sind so weit, und man akzeptiert den Zustand, wenn wir bereits von diesem Muster abgewichen sind). Als nächstes konstruiere die NFA $N'$ die genau wie $N$ aber $q$ als Startzustand hat. Schließlich konstruieren Sie eine endgültige NFA $N''$ deren Sprache ist Verwendung der Standard-NFA-Kreuzungskonstruktion. Beachten Sie, dass alle diese Konstruktionen in der Größe der Eingabe polynomisch sind. $L(N'')$ $L(S) \cap L(N')$

Testen Sie dann einfach, ob die Sprache von leer ist (was in Polynomzeit mit einer einfachen Graphensuche erfolgen kann). genau dann, wenn , oder mit anderen Worten, jede Zeichenfolge in ist nicht in . Mit anderen Worten, die Sprache von ist genau dann leer, wenn nur Zeichenfolgen akzeptiert, die für einige Präfixe von . Dies kann als genau die Aussage umformuliert werden, die wir zu bewerten versuchten: "Jeder Pfad in vom Zustand zu einem Akzeptanzzustand entspricht einer Zeichenfolge, die ein Präfix der Zeichenfolge $N''$ $L(N'') = \emptyset$ $L(S) \cap L(N') = \emptyset$ $L(N')$ $L(S)$ $N''$ $N'$ $s^n$ $n$ $N$ $q$ $s^n$ für einige . " $n$

Hauptalgorithmus

Betrachten Sie die Gruppe von Zuständen in der NFA, die sich in einer Schleife befinden. Führen Sie für jeden dieser Zustände Folgendes aus: $q$

Sei eine einfache Schleife, die . Sei die Zeichenkette, die der Schleife . Da die NFA keine Epsilon-Übergänge hat, ist nicht leer. Wenden Sie dann das Unterprogramm auf NFA, Status und Zeichenfolge . Wenn die Unterroutine uns sagt, dass jeder Pfad, der bei in der NFA beginnt und bei einem Akzeptanzzustand endet, einem Präfix von für einige fahren Sie mit dem nächsten Zustand . Andernfalls geben Sie aus, dass die Sprache der angegebenen NFA eine unendliche Präfix-freie Teilmenge enthält. $P_2$ $q$ $s$ $P_2$ $s$ $q$ $s$ $q$ $s^n$ $n$ $q$

Wenn wir jeden Zustand $q$ versuchen , der sich in einer Schleife befindet und der Algorithmus niemals ausgibt, dann wird ausgegeben, dass die Sprache der gegebenen NFA keine unendliche präfexfreie Teilmenge enthält.

Richtigkeit (erste Hälfte)

Angenommen, der obige Algorithmus behauptet, dass die Sprache der angegebenen NFA eine unendliche Präfix-freie Teilmenge enthält. Angenommen, dieser Ausgang wurde ausgewählt, während eine Schleife $P_2$ und ein Zustand $q$ berücksichtigt wurden . Wie zuvor ist $s$ die Zeichenfolge, die $P_2$ . Dann wissen wir gemäß der Unterroutine, dass nicht jeder Pfad, der bei $q$ in der NFA beginnt und bei einem Akzeptanzzustand endet, einem Präfix von $s^n$ für einige $n$ (da dies die einzige Ausgabe der Unterroutine ist, die zum Hauptalgorithmus führen würde Ausgabe bei diesem $q$ ).

Sei $P_3$ ein Pfad, dessen Existenz durch das Unterprogramm bestätigt wird: ein Pfad von $q$ zu einem Akzeptanzzustand, so dass der entsprechende String $t$ kein Präfix von $s^n$ für irgendein $n$ .

Es sei $P_2'$ aus $m$ Kopien von $P_2$ wobei $m$ ausreichend groß ist, dass $m|s| > |t|$ . Da $P_2$ eine Schleife durch $q$ , kann $P_2'$ als Pfad von $q$ nach $q$ . Die Zeichenfolge, die $P_2'$ entspricht, ist $s^m$

Sei $P_1$ ein Pfad vom Startzustand zu $q$ (der existiert, da jeder Zustand von Anfang an erreichbar ist) und sei $r$ die diesem Pfad entsprechende Zeichenfolge.

Dann ist der Pfad, der aus $P_1$ , $x$ Kopien von $P_2'$ und $P_3$ besteht, ein akzeptierender Berechnungspfad. Die diesem Pfad entsprechende Zeichenfolge ist $r(s^m)^xt$ . Somit akzeptiert die NFA jede Zeichenfolge der Form $r(s^m)^xt$ . Dies ist eine unendliche Menge von Zeichenfolgen, die von der NFA akzeptiert werden, und ich behaupte, dass diese Gruppe von Zeichenfolgen ohne Präfix ist. Angenommen, $r(s^m)^xt$ ist ein Präfix von $r(s^m)^yt$ mit $y > x$ . Mit anderen Worten ist $t$ ein Präfix von $(s^m)^{y-x}t$ . Da $(s^m)^{y-x}$ die Länge $m(y-x)|s| \ge m|s| > |t|$ Dies impliziert, dass $t$ ein Präfix von $(s^m)^{y-x} = s^{m(y-x)}$ . Aber wir wissen durch die Ausgabe des Unterprogramms, dass $t$ kein Präfix von $s^n$ für irgendein $n$ . Somit kann $r(s^m)^xt$ kein Präfix von $r(s^m)^yt$ , und wie gewünscht ist der Satz von Zeichenketten präfixfrei.

Daher habe ich gezeigt, dass dies tatsächlich der Fall ist, wenn der Hauptalgorithmus ausgibt, dass die Sprache der angegebenen NFA eine unendliche Präfix-freie Teilmenge enthält.

Richtigkeit (zweite Hälfte)

Als nächstes werde ich die andere Hälfte zeigen: Wenn die Sprache der angegebenen NFA eine unendliche Präfix-freie Teilmenge enthält, gibt der Hauptalgorithmus diese Tatsache aus.

Angenommen, die Sprache der angegebenen NFA enthält eine unendliche Präfix-freie Teilmenge. Sei $A$ die Menge von (akzeptierenden) Berechnungspfaden, die diesen Zeichenfolgen entsprechen. Beachten Sie, dass $A$ eine unendliche Menge von akzeptierenden Berechnungspfaden ist, deren entsprechende Zeichenfolgen niemals Präfixe voneinander sind.

Angenommen, ein Status "schleift" in der NFA, wenn in der NFA eine Schleife durch diesen Status vorhanden ist, andernfalls "keine Schleife". Berücksichtigen Sie alle Pfade vom Startzustand bis zu einem Schleifenzustand, die nur Nicht-Schleifenzustände durchlaufen (mit Ausnahme des einen Schleifenzustands, in dem sie enden). Sei $P$ die Menge dieser Pfade. Jeder Pfad $p \in P$ kann keine Schleife haben, da dann die Zustände in dieser Schleife Schleifenzustände wären und $p$ einen Schleifenzustand durchlaufen würde. Somit sind die Längen der Pfade in $P$ oben durch die Anzahl der Zustände in der NFA begrenzt, und daher ist $P$ endlich (wenn beispielsweise der Startzustand ein Schleifenzustand ist, ist der einzige solche Pfad der leere Pfad).

Wir können $A$ in $|P|+1$ Teilmengen basierend darauf, wie diese Berechnungspfade in $A$ beginnen. Insbesondere für die $p \in P$ , lassen $A_p$ die Menge aller Rechenweg in seine $A$ , die mit Pfad beginnen $p$ und lassen $B$ die Menge aller anderen Pfade in seine $A$ . Offensichtlich alle $A_p$ s und $B$ sind disjunkt und ihre Vereinigung ist der gesamte Satz $A$ . Weiterhin $B$ enthält nur Pfade, die niemals einen Schleifenzustand durchlaufen und daher niemals eine Schleife durchlaufen; somit ist $B$ endlich. Wir können dann schließen, dass einige $A_p$ unendlich sein müssen (andernfalls wäre $A$ eine Vereinigung von endlich vielen endlichen Mengen).

Da $A_p$ unendlich ist, gibt es unendlich viele Berechnungspfade, von denen keiner Zeichenfolgen Präfixe voneinander sind, die Pfade akzeptieren, die mit $p$ . Sei $q$ der Zustand, der am Ende des Pfades $p$ . Wir können daraus schließen, dass es unendlich viele akzeptierende Pfade gibt. Nennen Sie diese Menge $A'$ , beginnend bei $q$ alle Zeichenfolgen entsprechen, die keine Präfixe voneinander sind.

Während des Hauptalgorithmus führen wir das Unterprogramm für den Zustand $q$ und einige Zeichenfolgen $s$ . Dieses Unterprogramm sagt uns , ob jeder Annahme Pfad beginnend bei $q$ entspricht einem String, der ein Präfix ist $s^n$ für einige $n$ . Wenn dies der Fall wäre wären alle unendlich vielen akzeptierenden Pfade in $A'$ Präfixe von $s^n$ für verschiedene $n$ , was bedeuten würde, dass sie alle Präfixe voneinander sind. Dies ist nicht der Fall, daher schließen wir, dass, wenn der Hauptalgorithmus die Unterroutine im Zustand $q$ Das Ergebnis ist das andere mögliche Ergebnis. Dies führt jedoch dazu, dass der Hauptalgorithmus ausgibt, dass die Sprache der NFA eine unendliche Präfix-freie Teilmenge enthält.

Damit ist der Beweis der Richtigkeit abgeschlossen.

— Mikhail Rudoy
quelle

Ich verstehe nicht, wie die Schleifenbehandlung funktioniert, da ein gegebener Zustand

Teil (exponentiell) vieler Schleifen sein kann. Wenn zwei dieser Schleifen verwendet werden können, um eine nichtperiodische Sequenz zu erzeugen, sind wir natürlich fertig.

q

$q$

— Japh

Was meinst du mit Loop-Handling? Im

wählen Sie für jeden Zustand

nur eine Schleife aus, die

durchläuft (jede Schleife aus den potenziell exponentiell vielen), und rufen diese Schleife

(nach diesen Worten führen Sie die Unterroutine für den Zustand

und die Zeichenfolge

wobei

ist Zeichenfolge in Verbindung mit

). Das Unterprogramm behandelt im Wesentlichen die Prüfung, ob es möglich ist, mit dieser Schleife eine nichtperiodische Sequenz zu erzeugen. Wenn ja, dann sind wir fertig. Wenn nein (und außerdem nein für jedes

), dann ist Ihre gesamte Sprache eine Vereinigung von periodischen Sequenzen, also sind wir auch fertig.

q

$q$

q

$q$

P_{2}

$P_2$

q

$q$

s

$s$

s

$s$

P_{2}

$P_2$

q

$q$

— Mikhail Rudoy

Auf meine Frage , klarer, hier ist eine einfache NFA mit Anfangszustand machen

, Endzustand

und drei Übergängen:

. Die Schleife für

generiert keine präfixfreien Zeichenfolgen, die Schleife für

jedoch.

q

$q$

T

$T$

q \overset{a}{\to} q

$q \overset{a}{\rightarrow} q$

q \overset{b}{\to} q

$q \overset{b}{\rightarrow} q$

q \overset{a}{\to} T

$q \overset{a}{\rightarrow} T$

a

$a$

b

$b$

— Japh

Tatsächlich generiert die Schleife für

eine vorfixfreie Menge: Die Menge der Zeichenfolgen

alle verwenden die

Schleife. Wenn in meinem Algorithmus die Schleife, die Sie für

auswählen, die

Schleife ist, bestimmt das Unterprogramm, dass nein, nicht jeder akzeptierende Pfad, der bei

beginnt, eine Zeichenfolge der Form

, und der Hauptalgorithmus sagt daher, dass ein unendliches Präfix -freie Teilmenge existiert. Wenn die Schleife, die der Algorithmus für

stattdessen die

Schleife ist, bestimmt das Unterprogramm, dass nicht jeder Akzeptanzpfad, der bei

beginnt, eine Zeichenfolge der Form

a

$a$

a^{*} b a

$a^*ba$

a

$a$

q

$q$

a

$a$

q

$q$

a^{*}

$a^*$

q

$q$

b

$b$

q

$q$

, und auch in diesem Fall hat der Algorithmus die gleiche Ausgabe.

b^{*}

$b^*$

— Mikhail Rudoy

Danke Mikhail! Ich denke, Ihre Antwort regelt die Frage.

— Googlo

Definitionen

Definition 1 : Sei $S$ eine Menge von Wörtern. Wir sagen , dass $S$ ist schön unendlich Präfix frei (Namen für die Zwecke dieser Antwort aus) , wenn es Worte $u_0,\dots,u_n,\dots$ und $v_1,\dots,v_n,\dots$ , so dass:

Für jedes $n\ge 1$ sind $u_n$ und $v_n$ nicht leer und beginnen mit unterschiedlichen Buchstaben;
$S=\{u_0v_1,\dots,u_0\dots u_n v_{n+1},\dots\}$ .

Die Intuition ist, dass Sie all diese Wörter auf einen Baum mit unendlichen Wurzeln (das ■ist die Wurzel, das ▲sind die Blätter und das •sind die verbleibenden inneren Knoten) der folgenden Form setzen können, so dass die Wörter in $S$ genau die Bezeichnungen von Pfaden sind von der Wurzel bis zum Blatt:

   u₀    u₁    u₂
■-----•-----•-----•⋅⋅⋅
      |     |     |
      | v₁  | v₂  | v₃
      |     |     |
      ▲     ▲     ▲

Satz 1.1 : Ein schön unendlicher Satz ohne Präfix ist ohne Präfix.

$u_0\dots u_n v_{n+1}$ $u_0 \dots u_m v_{m+1}$

$n < m$ $v_{n+1}$ $u_{n+1}\dots u_m v_{m+1}$ $u_{n+1}$ $v_{n+1}$
$n > m$ $u_{m+1}\dots u_n v_{n+1}$ $v_{m+1}$ $u_{m+1}$ $v_{m+1}$

Satz 1.2 : Eine schön unendliche Menge ohne Präfix ist unendlich.

$n\not= m$ $u_0\dots u_n v_{n+1}$ $u_0 \dots u_m v_{m+1}$

Hauptbeweis

Satz 2 : Jede unendliche Präfix-freie Menge enthält eine schöne unendliche Präfix-freie Menge.

Satz 3 : Eine Sprache enthält genau dann eine unendliche Menge ohne Präfix, wenn sie eine schön unendliche Menge ohne Präfix enthält.

Beweis unten.

$\boxed{\Rightarrow}$ $\boxed{\Leftarrow}$

$\overline{u_0}\widehat{v_1}\overline{u_1}\widehat{v_2}\overline{u_2}\dots$ $\omega$

Beweis unten.

Satz 5 : Die Entscheidung, ob eine von einer NFA beschriebene reguläre Sprache eine unendliche Präfix-freie Teilmenge enthält, kann im Zeitpolynom in der Größe der NFA erfolgen.

Beweis von Satz 5 : Mit Satz 3 genügt es zu testen, ob er eine schön unendliche Präfix-freie Teilmenge enthält, was in Polynomzeit erfolgen kann, indem der durch Satz 4 gegebene Büchi-Automat gebaut und dessen Nicht-Leere getestet wird Sprache (die zeitlich linear in der Größe des Büchi-Automaten erfolgen kann).

Beweis von Satz 2

$S$ $w^{-1}S$ $w$

Beweis 2.1 : Per Definition.

$S$ $w:=\operatorname{lcp}(S_n)$ $S$ $S$ $w^{-1}S$

$f:w^{-1}S\to S$ $f(x)=wx$ $w^{-1}S$ $f$ $w$

$u_n$ $v_n$ $n$ $H_n$

$(P_1)$ $k\in\{1,\dots,n\}$ $u_0\dots u_{k-1} v_k \in S$
$(P_2)$ $k\in\{1,\dots,n\}$ $u_k$ $v_k$
$(P_3)$ $S_n:=(u_0\dots u_n)^{-1}S$
$(P_4)$ $S_n$ $a$ $S_n\subseteq a\Sigma^*$

$H_n$ $(P_4)$ $u_n$ $(P_4)$ $u_n$ $u_n\operatorname{lcp}(S_n)$ $(P_1)$ $(P_2)$ $(P_4)$ $(P_3)$ ist von Lemma 3.

$n$

$H_0$ $u_0:=\operatorname{lcp}(S)$ $u_0:=\varepsilon$
$u_1,\dots,u_n$ $v_1,\dots,v_n$ $H_n$ $n$ $u_{n+1}$ $v_{n+1}$ $H_{n+1}$

$S_n$ $\varepsilon$ $S_n=\underset{a\in \Sigma}{\bigsqcup}(S_n\cap a\Sigma^*)$ $S_n$ $a$ $S_n\cap a\Sigma^*$ $(P_4)$ $b$ $a$ $S_n\cap b\Sigma^*$ $v_{n+1}\in S_n\cap b\Sigma^*$ $u_{n+1}$ $a$ $(P_1)$ $(P_2)$ $(P_3)$ $(P_4)$ $u_{n+1}:=a\operatorname{lcp}(a^{-1}S_n)$

$(P_1)$ $u_1\dots u_nv_{n+1}\in u_1\dots u_n(S_n\cap b\Sigma^*)\subseteq S$

$(P_2)$ $u_{n+1}$ $v_{n+1}$

$(P_3)$ $a^{-1}S_n$ $a$ $S_{n+1}$

$(P_4)$ $u_{n+1}$

Beweis von Satz 4

$A=(Q,\to,\Delta,q_0,F)$

$u_0$ $v_1$ $u_0$ $u_1$ $v_n$ $u_n$

Mir wurde gesagt, dass dies mit Mehrkopfautomaten einfacher sein könnte, aber ich bin mit dem Formalismus nicht wirklich vertraut, daher beschreibe ich ihn nur mit einem Büchi-Automaten (mit nur einem Kopf).

$\Sigma':=\overline{\Sigma}\sqcup\widehat{\Sigma}$ $u_k$ $v_k$

$Q':=Q\times (\{\bot\}\sqcup (Q \times \Sigma))$

$(q,\bot)$ $u_n$
$(q,(p,a))$ $u_n$ $p$ $v_{n+1}$ $a$ $p$ $u_{n+1}$ $a$

$q_0':=(q_0,\bot)$ $u_0$

$F'$ $F\times Q \times \Sigma$

$\to'$

$u_n$ $q\overset{a}{\to}q'$ $(q,\bot)\overset{\overline{a}}{\to'}(q',\bot)$
$u_n$ $v_{n+1}$ $q\overset{a}{\to}q'$ $(q,\bot)\overset{\widehat{a}}{\to'}(q',(q,a))$
$v_n$ $q\overset{a}{\to}q'$ $(q,(p,a))\overset{\widehat{a}}{\to'}(q',(p,a))$
$v_n$ $u_n$ $p\overset{a}{\to}p'$ $p$ $b$ $a$ $(q,(p,b))\overset{\overline{a}}{\to'}(p',\bot)$

Lemma 4.1 $\overline{u_0}\widehat{v_1}\overline{u_1}\widehat{v_2}\dots \overline{u_n}\widehat{v_{n+1}}$ $A'$ $n\ge 1$ $u_n$ $v_n$ $n\ge 0$ $u_0\dots u_n v_{n+1}\in L(A)$

Beweis von Lemma 4.1 : Dem Leser überlassen.

— xavierm02
quelle