# Bedingungen für die Universalität der NFA

28

Man betrachte nichtdeterministische endliche Automaten $A=\left(Q,\mathrm{\Sigma },\delta ,{q}_{0},F\right)$$A = (Q, \Sigma, \delta, q_0, F)$ und eine Funktion $f\left(n\right)$$f(n)$ . Zusätzlich definieren wir ${\mathrm{\Sigma }}^{\le k}=\bigcup _{i\le k}{\mathrm{\Sigma }}^{i}$$\Sigma^{\leq k} = \bigcup_{i \leq k} \Sigma^i$ .

Analysieren wir nun die folgende Aussage:

Wenn ${\mathrm{\Sigma }}^{\le f\left(|Q|\right)}\subseteq L\left(A\right)$$\Sigma^{\leq f(|Q|)} \subseteq L(A)$ , dann ist $L\left(A\right)={\mathrm{\Sigma }}^{\ast }$$L(A) = \Sigma^*$ .

Es ist leicht zu zeigen, dass für $f\left(n\right)={2}^{n}+1$$f(n) = 2^n+1$ gilt, wenn also die Automaten jedes Wort mit einer Länge von bis zu erzeugen ${2}^{|Q|}+1$$2^{|Q|}+1$ , dann erzeugt es ${\mathrm{\Sigma }}^{\ast }$$\Sigma^*$ .

Aber gilt es immer noch, wenn $f$$f$ ein Polynom ist?

Wenn nicht, was könnte eine Konstruktion eines NFA $A$$A$ für ein bestimmtes polynom $p$$p$ aussehen, st ${\mathrm{\Sigma }}^{\le p\left(|Q|\right)}\subseteq L\left(A\right)⊊{\mathrm{\Sigma }}^{\ast }$$\Sigma^{\leq p(|Q|)} \subseteq L(A) \subsetneq \Sigma^*$ ?

Ich mag die Prämie auf einen Beweis oder Widerlegung geben , dass für den Fall . Und wenn es keine gibt, gebe ich es dem besten Bau, den man bekommen kann. $f\left(n\right)={2}^{n-o\left(n\right)}$$f(n)=2^{n−o(n)}$$|\mathrm{\Sigma }|\ge 2$$|\Sigma|\geq 2$
Hsien-Chih Chang 張顯 張顯

Antworten:

22

Damit die Anweisung gültig ist, muss f exponentiell wachsen, auch mit dem unären Alphabet.

[Bearbeiten: Die Analyse wurde in Revision 2 leicht verbessert.]

Hier ist eine Beweisskizze. Angenommen, die Anweisung gilt und f sei eine Funktion, bei der jede NFA mit höchstens n Zuständen, die alle Zeichenfolgen mit der Länge höchstens f ( n ) akzeptiert, alle Zeichenfolgen überhaupt akzeptiert. Wir werden beweisen , dass für jede C > 0 und ausreichend groß n , haben wir f ( n )> 2 C ⋅√ n .

Der Primzahlsatz impliziert, dass es für jedes c <lg e und für ausreichend großes k mindestens c ⋅ 2 k / k Primzahlen im Bereich [2 k , 2 k +1 ] gibt. Wir nehmen c = 1. Für ein solches k sei N k = ⌈2 k / k ⌉ und definiere ein NFA M k wie folgt. Sei p 1 ,…, p N k verschiedene Primzahlen im Bereich [2 k , 2 k +1]. Die NFA M k hat S k = 1 + p 1 +… + p N k Zustände. Abgesehen vom Anfangszustand sind die Zustände in N k Zyklen unterteilt, wobei der i- te Zyklus die Länge p i hat . In jedem Zyklus sind alle bis auf einen Zustand akzeptierte Zustände. Der Anfangszustand hat N k ausgehende Flanken, von denen jede in jedem Zyklus unmittelbar nach dem zurückgewiesenen Zustand in den Zustand übergeht. Schließlich wird auch der Ausgangszustand übernommen.

Sei P k das Produkt p 1p N k . Es ist leicht zu sehen , dass M k alle Strings der Länge kleiner als akzeptiert P k lehnt aber die Zeichenfolge der Länge P k . Daher ist f ( S k ) ≥ P k .

Man beachte , daß S k ≤ 1 + N k ⋅2 k +1 = O (2 2 k ) ist und daß P k ≥ (2 k ) N k ≥ 2 2 k . Der Rest ist Standard.

Was ist Ihre Vermutung über den besten Wert von ? Sagen Sie oder irgendwo zwischen und $f$$f$$f\left(n\right)={2}^{n}+1$$f(n) = 2^n+1$${2}^{n}$$2^n$ ? ${2}^{c\cdot \sqrt{n}}$$2^{c\cdot\sqrt{n}}$
Hsien-Chih Chang 張顯 張顯

@ Hsien-Chih: Ich habe mich das gleiche gefragt, und ich habe keine vernünftige Vermutung. Erstens ist es trivial, f (n) ≤ 2 ^ n zu sehen (wir brauchen keine +1), und obwohl ich eine lineare Verbesserung gegenüber dieser oberen Schranke erwarte, habe ich keine Ahnung, ob es bis auf einen konstanten Faktor eng ist. (mehr)
Tsuyoshi Ito

(Fortsetzung) Zweitens, was die Untergrenze betrifft, wenn ich mich nicht irre, ergibt eine leichte Verfeinerung der obigen Analyse die folgende Untergrenze: für jede Konstante 0 <c < und ausreichend groß n haben wir$1/\sqrt{2}$$1/\sqrt2$ . Weitere Verfeinerungen sind wahrscheinlich möglich, aber wir können keine Untergrenze wie 2 ^ {n ^ p} für p> 1/2 erhalten, wenn wir dieselbe Konstruktion des NTM verwenden. Ich halte es für eine interessante Frage, ob die Verwendung der Verteilung von Primzahlen (wie der PNT) für die Konstruktion von schlechten Beispielen wesentlich ist. (mehr)$f\left(n\right)>{e}^{c\sqrt{n\mathrm{ln}n}}$$f(n) > e^{c\sqrt{n \ln n}}$
Tsuyoshi Ito

(Fortsetzung) Wenn Sie jedoch interessiert sind und es weiter untersuchen möchten, ist es wahrscheinlich klüger, zuerst nach Literatur zu suchen. Es wird mich nicht wundern, wenn diese Antwort oder etwas Besseres bereits in der Literatur auftaucht.
Tsuyoshi Ito

5
@ Tsuyoshi: Chrobak hat gezeigt, dass ein n-Zustand-DFA für eine unäre Sprache durch einen m-Zustand-NFA für simuliert werden kann. Daher ist Ihre Konstruktion eng, wenn die Sprache nicht einheitlich ist. Siehe [Chr86]:cs.ust.hk/mjg_lib/Library/Chro86.pdf$m=O\left({e}^{\sqrt{n\mathrm{log}n}}\right)$$m=O(e^{\sqrt{n\log n}})$
Hsien-Chih Chang 張顯 張顯

19

## BEARBEITEN AM 12.10.06:

ok, das ist so ziemlich die beste Konstruktion, die ich bekommen kann. Mal sehen, ob jemand bessere Ideen hat.

Satz. Für jedes gibt es einen -Zustand NFA über Alphabeten mit so dass die kürzeste Kette, die nicht in ist, die Länge .$n$$n$$\left(5n+12\right)$$(5n+12)$$M$$M$$\mathrm{\Sigma }$$\Sigma$$|\mathrm{\Sigma }|=5$$|\Sigma|=5$$L\left(M\right)$$L(M)$$\left({2}^{n}-1\right)\left(n+1\right)+1$$(2^n-1)(n+1)+1$

Dies ergibt .$f\left(n\right)=\mathrm{\Omega }\left({2}^{n/5}\right)$$f(n) = \Omega(2^{n/5})$

Die Konstruktion ist mit der in Shallit ziemlich identisch , außer dass wir eine NFA direkt konstruieren, anstatt die Sprache zuerst durch einen regulären Ausdruck darzustellen. Lassen

.$\mathrm{\Sigma }=\left\{\left[\genfrac{}{}{0}{}{0}{0}\right],\left[\genfrac{}{}{0}{}{0}{1}\right],\left[\genfrac{}{}{0}{}{1}{0}\right],\left[\genfrac{}{}{0}{}{1}{1}\right],\mathrm{♯}\right\}$$\Sigma = \{{0 \brack 0},{0 \brack 1},{1 \brack 0},{1 \brack 1},\sharp\}$

$n$$n$${\mathrm{\Sigma }}^{\ast }-\left\{{s}_{n}\right\}$$\Sigma^*-\{s_n\}$${s}_{n}$$s_n$ is the following sequence (take $n=3$$n=3$ for example):

${s}_{3}=\mathrm{♯}\left[\genfrac{}{}{0}{}{0}{0}\right]\left[\genfrac{}{}{0}{}{0}{0}\right]\left[\genfrac{}{}{0}{}{0}{1}\right]\mathrm{♯}\left[\genfrac{}{}{0}{}{0}{0}\right]\left[\genfrac{}{}{0}{}{0}{1}\right]\left[\genfrac{}{}{0}{}{1}{0}\right]\mathrm{♯}\dots \mathrm{♯}\left[\genfrac{}{}{0}{}{1}{1}\right]\left[\genfrac{}{}{0}{}{1}{1}\right]\left[\genfrac{}{}{0}{}{0}{1}\right]\mathrm{♯}$$s_3 = \sharp{0 \brack 0}{0 \brack 0}{0 \brack 1}\sharp{0 \brack 0}{0 \brack 1}{1 \brack 0}\sharp \ldots \sharp{1 \brack 1}{1 \brack 1}{0 \brack 1}\sharp$.

The idea is that we can construct an NFA consists of five parts;

• ein Starter , der sicherstellt, dass der String mit beginnt$\mathrm{♯}\left[\genfrac{}{}{0}{}{0}{0}\right]\left[\genfrac{}{}{0}{}{0}{0}\right]\left[\genfrac{}{}{0}{}{0}{1}\right]\mathrm{♯}$$\sharp{0 \brack 0}{0 \brack 0}{0 \brack 1}\sharp$;
• a terminator, which ensures the string ends with $\mathrm{♯}\left[\genfrac{}{}{0}{}{1}{1}\right]\left[\genfrac{}{}{0}{}{1}{1}\right]\left[\genfrac{}{}{0}{}{0}{1}\right]\mathrm{♯}$$\sharp{1 \brack 1}{1 \brack 1}{0 \brack 1}\sharp$;
• a counter, which keeps the number of symbols between two $\mathrm{♯}$$\sharp$'s as $n$$n$;
• an add-one checker, which guarantees that only symbols with the form $\mathrm{♯}\genfrac{}{}{0}{}{x}{x+1}\mathrm{♯}$$\sharp{x \atop x+1}\sharp$ appears; finally,
• a consistent checker, which guarantees that only symbols with the form $\mathrm{♯}\genfrac{}{}{0}{}{x}{y}\mathrm{♯}\genfrac{}{}{0}{}{y}{z}\mathrm{♯}$$\sharp{x \atop y}\sharp{y \atop z}\sharp$ can appear concurrently.

Note that we do want to accept ${\mathrm{\Sigma }}^{\ast }-\left\{{s}_{n}\right\}$$\Sigma^*-\{s_n\}$ instead of $\left\{{s}_{n}\right\}$$\{s_n\}$, so once we find out that the input sequence is disobeying one of the above behaviors, we accept the sequence immediately. Otherwise after $|{s}_{n}|$$|s_n|$ steps, the NFA will be in the only possible rejecting state. And if the sequence is longer than $|{s}_{n}|$$|s_n|$, the NFA also accepts. So any NFA satisfies the above five conditions will only reject ${s}_{n}$$s_n$.

It may be easy to check the following figure directly instead of a rigorous proof: We start at the upper-left state. The first part is the starter, and the counter, then the consistent checker, the terminator, finally the add-one checker. All the arc with no terminal nodes point to the bottom-right state, which is an all time acceptor. Some of the edges are not labeled due to lack of spaces, but they can be recovered easily. A dash line represents a sequence of $n-1$$n-1$ states with $n-2$$n-2$ edges.

We can (painfully) verify that the NFA rejects ${s}_{n}$$s_n$ only, since it follows all the five rules above. So a $\left(5n+12\right)$$(5n+12)$-state NFA with $|\mathrm{\Sigma }|=5$$|\Sigma|=5$ has been constructed, which satisfies the requirement of the theorem.

This question has been studied by Jeffrey O. Shallit et al., and indeed the optimal value of $f\left(n\right)$$f(n)$ is still open for $|\mathrm{\Sigma }|>1$$|\Sigma|>1$. (As for unary language, see the comments in Tsuyoshi's answer)

In page 46-51 of his talk on universality, he provided a construction such that:

Theorem. For $n\ge N$$n\geq N$ for some $N$$N$ large enough, there is an $n$$n$-state NFA $M$$M$ over binary alphabets such that the shortest string not in $L\left(M\right)$$L(M)$ is of length $\mathrm{\Omega }\left({2}^{cn}\right)$$\Omega(2^{cn})$ for $c=1/75$$c=1/75$.

Thus the optimal value for $f\left(n\right)$$f(n)$ is somewhere between ${2}^{n/75}$$2^{n/75}$ and ${2}^{n}$$2^n$. I'm not sure if the result by Shallit has been improved in recent years.

I'm playing with Shallit's work, hope to get a better bound much near ${2}^{n}$$2^n$. Their construction seems interesting, by specify some sequence of length $\stackrel{^}{\mathrm{\Omega }}\left({2}^{n}\right)$$\hat{\Omega}(2^n)$ which can not be represent by a "short" regular expression of length $cn+o\left(n\right)$$cn+o(n)$, and each regular expression of length $f\left(n\right)$$f(n)$ can be described by an NFA of size $f\left(n\right)+1$$f(n)+1$. Currently I'm able to let $c\le 22$$c \leq 22$, but a smarter idea is need to come close ${2}^{n}$$2^n$.
Hsien-Chih Chang 張顯之

2
I don't think it gives further insights for studying this problem, but the proper scholarly reference for Shallit's talk is: K. Ellul, B. Krawetz, J. Shallit, M. Wang: Regular Expressions: New Results and Open Problems. Journal of Automata, Languages and Combinatorics 10(4): 407-437 (2005)
Hermann Gruber

@Hermann: Thank you for the reference, currently I cannot access to the paper, but I will find a way to.
Hsien-Chih Chang 張顯之

I think by using counter we can replace the starter and terminator by a 2-state tiny machine. So this further reduce the size of NFA to $3n+O\left(1\right)$$3n+O(1)$.
Hsien-Chih Chang 張顯之

1
The author's preprint version of the noted JALC paper is here: cs.uwaterloo.ca/~shallit/Papers/re3.pdf The bound, and the proof is the same in the printed version.
Hermann Gruber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.