Gibt es eine Erweiterung für reguläre Ausdrücke, die die kontextfreien Sprachen erfasst?

25

In vielen Arbeiten mit kontextfreien Grammatiken (CFGs) lassen die dort vorgestellten Beispiele für solche Grammatiken oft einfache Charakterisierungen der von ihnen erzeugten Sprache zu. Beispielsweise:

$S \to a a S b$
$S \to$

erzeugt , $\{ a^{2i} b^i | i \geq 0\}$

$S \to a S b$
$S \to a a S b$
$S \to$

erzeugt $\{ a^i b^j \mid i \geq j \geq 0 \}$ und

$S \to a S a$
$S \to b S b$
$S \to$

erzeugt oder äquivalent (wobei sich auf den Teil bezieht, der von erfasst wurde ). $\{ w w^R \mid w \in (a|b)^* \}$ $\{ ((a|b)^*)_1 ((a|b)^*)_2 \mid p_1 = p_2^R \}$ $p_1$ $(...)_1$

Die obigen Beispiele können alle durch Hinzufügen von Indizes ( ), einfachen Einschränkungen für diese Indizes ( ) und Musterübereinstimmung mit regulären Ausdrücken generiert werden . Ich frage mich daher, ob alle kontextfreien Sprachen durch eine Erweiterung der regulären Ausdrücke generiert werden können. $a^i$ $i > j$

Gibt es eine Erweiterung von regulären Ausdrücken, die alle oder einige signifikante Teilmengen der kontextfreien Sprachen generieren können?

fl.formal-languages context-free context-free-languages

— Alex ten Brink
quelle

3

Beachten Sie, dass das Hinzufügen von Indizes und Abhängigkeiten zu leistungsfähig ist: Sie können

, bei dem es sich nicht um eine CFL handelt.

a^{n} b^{n} c^{n}

$a^nb^nc^n$

— Shaull

34

Ja da ist. Definieren Sie einen kontextfreien Ausdruck als einen Begriff, der von der folgenden Grammatik generiert wird:

\begin{array}{lcll} g & ::= & ϵ & Empty string \\ | & c & Character c in alphabet Σ \\ | & g \cdot g & Concatenation \\ | & ⊥ & Failing pattern \\ | & g \lor g & Disjunction \\ | & μ α . g & Recursive grammar expression \\ | & α & Variable expression \end{array}

$\begin{array}{lcll} g & ::= & \epsilon & \mbox{Empty string}\\ & | & c & \mbox{Character $c$ in alphabet $\Sigma$} \\ & | & g \cdot g & \mbox{Concatenation} \\ & | & \bot & \mbox{Failing pattern} \\ & | & g \vee g & \mbox{Disjunction}\\ & | & \mu \alpha.\; g & \mbox{Recursive grammar expression} \\ & | & \alpha & \mbox{Variable expression} \end{array}$

Dies sind alle Konstruktoren für reguläre Sprachen mit Ausnahme von Kleene star, der durch einen allgemeinen Festkommaoperator und einen variablen Referenzmechanismus. (Der Kleene-Stern wird nicht benötigt, da er als $\mu \alpha.\;g$ .) $g\ast \triangleq \mu \alpha.\;\epsilon \vee g\cdot\alpha$

Die Interpretation eines kontextfreien Ausdrucks erfordert die Berücksichtigung der Interpretation freier Variablen. So ein definieren Umgebung eine Karte von Variablen zu Sprachen (dh Teilmengen sein ), und lassen Sie ist die Funktion, die sich bei allen Eingaben mit Ausnahme von wie verhält und die die Sprache für zurückgibt . $\rho$ $\Sigma^*$ $[\rho|\alpha:L]$ $\rho$ $\alpha$ $L$ $\alpha$

Definieren Sie nun die Interpretation eines kontextfreien Ausdrucks wie folgt:

\begin{array}{lcl} [[ϵ]] ρ & = & {ϵ} \\ [[c]] ρ & = & {c} \\ [[g_{1} \cdot g_{2}]] ρ & = & {w_{1} \cdot w_{2} ∣ | w_{1} \in [[g_{1}]] ρ \land w_{2} \in [[g_{2}]] ρ} \\ [[⊥]] ρ & = & \emptyset \\ [[g_{1} \lor g_{2}]] ρ & = & [[g_{1}]] ρ \cup [[g_{2}]] ρ \\ [[α]] ρ & = & ρ (α) \\ [[μ α . g]] ρ & = & ⋃_{n \in N} L_{n} \\ where \\ L_{0} & = & \emptyset \\ L_{n + 1} & = & L_{n} \cup [[g]] [ρ | α : L_{n}] \end{array}

$\newcommand{\interp}[2]{[\![{#1}]\!]\;{#2}} \newcommand{\setof}[1]{\left\{#1\right\}} \newcommand{\comprehend}[2]{\setof{{#1}\;\mid|\;{#2}}} \begin{array}{lcl} \interp{\epsilon}{\rho} & = & \setof{\epsilon} \\ \interp{c}{\rho} & = & \setof{c} \\ \interp{g_1\cdot g_2}{\rho} & = & \comprehend{w_1 \cdot w_2}{w_1 \in \interp{g_1}{\rho} \land w_2 \in \interp{g_2}{\rho}} \\ \interp{\bot}{\rho} & = & \emptyset \\ \interp{g_1 \vee g_2}{\rho} & = & \interp{g_1}{\rho} \cup \interp{g_2}{\rho} \\ \interp{\alpha}{\rho} & = & \rho(\alpha) \\ \interp{\mu \alpha.\; g}{\rho} & = & \bigcup_{n \in \mathbb{N}} L_n \\ \mbox{where} & & \\ L_0 & = & \emptyset \\ L_{n+1} & = & L_n \cup \interp{g}{[\rho|\alpha:L_n]} \end{array}$

Mit dem Knaster-Tarski-Theorem ist leicht zu erkennen, dass die Interpretation von ist das am wenigsten feste des Ausdrucks. $\mu \alpha.g$

Es ist einfach (wenn auch nicht ganz trivial) zu zeigen, dass Sie einen kontextfreien Ausdruck geben können, der dieselbe Sprache wie jede kontextfreie Grammatik hat, und umgekehrt. Die Nicht-Trivialität ergibt sich aus der Tatsache, dass kontextfreie Ausdrücke verschachtelte Fixpunkte haben und kontextfreie Grammatiken Ihnen einen einzelnen Fixpunkt über einem Tupel geben. Dies erfordert die Verwendung von Bekics Lemma, das genau besagt, dass ein verschachtelter Fixpunkt über ein Produkt in einen einzelnen Fixpunkt umgewandelt werden kann (und umgekehrt). Aber das ist die einzige Subtilität.

EDIT: Nein, ich kenne keine Standardreferenz dafür: Ich habe es für mein eigenes Interesse ausgearbeitet. Es ist jedoch offensichtlich genug, dass ich zuversichtlich bin, dass es zuvor erfunden wurde. Einige Gelegenheits-Googler enthüllen Joost Winter, Marcello Bonsangue und Jan Ruttens kürzlich erschienene Veröffentlichung Context-Free Languages, Coalgebraically , in der sie eine Variante dieser Definition angeben (wobei alle Fixpunkte geschützt werden müssen), die sie auch als kontextfreie Ausdrücke bezeichnen.

— Neel Krishnaswami
quelle

Das ist ziemlich genial. Gibt es einen Standardnamen oder eine Referenz dafür?

— Alex ten Brink

5

Arto Salomaa behandelt dies 1973 in seinem Buch „Formale Sprachen“. Er nennt sie „reguläre Ausdrücke“.

— Tim Schaeffer

3

Zu MathOverflow gab es eine eng verwandte Frage (und mehrere Antworten) zu den Sprachen, deren generierende Funktionen holonom sind .

$\mu$

— Jacques Carette
quelle

μ α . g

$\mu\alpha.\;g$

[μ α . g / α] g

$[\mu\alpha.\;g/\alpha]g$

1

Wir haben kürzlich die Umrisse eines Frameworks veröffentlicht, das genau das ermöglicht. Schauen Sie unter comp.compilers nach , wo ich eine Benachrichtigung zusammen mit einigen Links gesendet habe.

Die neuen Entwicklungen stützen sich auf das Chomsky-Schützenberger-Theorem und können als Ergänzung dieses Ergebnisses angesehen werden. Chomsky selbst wurde über die Entwicklungen informiert und zeigt den Wunsch, "aufzuholen".

Zusammen mit dieser Entwicklung stellen wir auch die Äquivalenz von zwei getrennten Formulierungen für kontextfreie Ausdrücke fest - eine, die eine Erweiterung / Vervollständigung der Mu-Kalkülform "kleinster fester Punkt" darstellt (ursprünglich von Gruska, Yntema und McWhirter). die eine endgültige Formulierung von Art im Jahr 2014 erhalten - und die andere im Jahr 2008 veröffentlicht.

— NinjaDarth
quelle

4

Bitte geben Sie alle relevanten Informationen in der Antwort selbst an. "Look under comp.compilers" ist bereits jetzt eine hilflose Antwort und wird in ein paar Monaten völlig unbrauchbar sein.

— Emil Jeřábek unterstützt Monica

Das ist völlig falsch. Comp.compilers (im Gegensatz zu dieser Site und anderen Blogs übrigens) werden permanent archiviert. Dort finden Sie alle Details, die Sie benötigen. Es gibt viele Links, die auch im zuletzt geposteten Artikel zu finden sind. Im Gegensatz zu Blogseiten ist es auch nach außen offen und für ein viel breiteres Publikum nützlich. Sie sollten keine Schwierigkeiten haben, im USENET etwas zu finden - hier sollten Fragen wie diese beantwortet und diskutiert werden. Wenn Sie Schwierigkeiten haben, finden Sie hier den Link. groups.google.com/forum/#!topic/comp.compilers/YCa5jHUR1iQ

— NinjaDarth

2

Das Problem ist nicht, dass es nicht archiviert ist, sondern dass die Archive riesig sind. Wenn ich jetzt in den Archiven nachschaue, kann ich Ihren Beitrag irgendwo oben finden, aber wenn jemand diese Antwort in einigen Monaten oder Jahren in der Zukunft sieht, hat er keine Ahnung, wo er anfangen soll zu graben. Es ist arrogant und unhöflich, die Leser zu einer längeren und unzuverlässigen Suche zu veranlassen, wenn Sie sie auf einen genaueren Ort verweisen können. Jetzt habe ich es für dich getan. Es dauerte ungefähr 30 Sekunden. Das hättest du selbst tun können.

— Emil Jeřábek unterstützt Monica