Wie viel größer kann ein LR (1) -Automat für eine Sprache sein als der entsprechende LR (0) -Automat?

In einem LR (0) -Parser besteht jeder Status aus einer Sammlung von LR (0) -Elementen, bei denen es sich um Produktionen handelt, die mit einer Position versehen sind. In einem LR (1) -Parser besteht jeder Status aus einer Sammlung von LR (1) -Elementen, bei denen es sich um Produktionen handelt, die mit einer Position und einem Lookahead-Zeichen versehen sind.

Es ist bekannt, dass bei einem gegebenen Zustand in einem LR (1) -Automaten der Konfigurationssatz, der durch Ablegen der Lookahead-Token von jedem LR (1) -Element gebildet wird, einen Konfigurationssatz ergibt, der einem Zustand im LR (0) -Automaten entspricht. In diesem Sinne besteht der Hauptunterschied zwischen einem LR (1) -Automaten und einem LR (0) -Automaten darin, dass der LR (1) -Automat mehr Kopien der Zustände im LR (0) -Automaten enthält, von denen jeder mit Lookahead versehen ist Information. Aus diesem Grund sind LR (1) -Automaten für ein bestimmtes CFG typischerweise größer als der entsprechende LR (0) -Parser für dieses CFG.

Meine Frage ist, wie viel größer der LR (1) Automat sein kann. Wenn das Alphabet der Grammatik verschiedene Terminalsymbole enthält, müssen wir im Prinzip möglicherweise jeden Zustand im LR (0) -Automaten mindestens einmal pro Teilmenge dieser verschiedenen Terminalsymbole replizieren , was möglicherweise zu einem LR (1) führt ) Automat, der mal größer ist als der ursprüngliche LR (0) -Automat. Da jedes einzelne Element im LR (0) -Automaten aus einer Reihe verschiedener LR (0) -Elemente besteht, kann es zu einer noch größeren Vergrößerung kommen. $n$ $n$ $2^n$

Trotzdem kann ich keinen Weg finden, eine Grammatikfamilie zu konstruieren, für die der LR (1) -Automat erheblich größer ist als der entsprechende LR (0) -Automat. Alles, was ich versucht habe, hat zu einer bescheidenen Vergrößerung geführt (normalerweise um das 2-4-fache), aber ich kann anscheinend kein Muster finden, das zu einer großen Explosion führt.

Gibt es bekannte Familien kontextfreier Grammatiken, deren LR (1) -Automaten exponentiell größer sind als die entsprechenden LR (0) -Automaten? Oder ist bekannt, dass Sie im schlimmsten Fall keine exponentielle Explosion bekommen können?

Vielen Dank!

context-free parsers lr-k

— templatetypedef
quelle

Probleme wie diese sind manchmal empirischen Tests zugänglich. Was halten Sie von einzelnen Instanzen, die zufällig generiert wurden und ausgewählt wurden, um eine Explosion zu zeigen? Es gibt ein Muster in diesen Arten von Fragen, dass "zufällig aussehende" Konstruktionen die größte "Komplexität" aufweisen ...

— vzn

Worst-Case-Instanzen sind in der Regel durch Zufallsstichproben schwer zu finden, zumindest wenn der durchschnittliche Fall signifikant besser ist.

— Raphael

ps es wäre hilfreich, wenn Sie Beispiele der 2x-4x Blowup-Fälle irgendwo einschließen, nicht notwendig in der Post ...

— vzn

Idee / Leitung: LR Parsing Permutationen (cstheory.se)

— vzn

LALR (1) wird allgemein als ein Weg vorgestellt, um der LR (1) -Power ausreichend nahe zu kommen, um mit viel weniger Zuständen nützlich zu sein (um die Wörter des Drachenbuchs zu verwenden). Ich frage mich, ob ein bloßer Faktor von 2 bis 4 ausgereicht hätte, um LR (1) bis zur Erfindung von LALR (1) als unerschwinglich abzutun. Wenn ich darüber nachdenke, wenn sie zugänglich sind, werde ich einen Blick auf Aho & Ullman Die Theorie des Parsens, Übersetzens und Kompilierens und auf Grune Parsing-Techniken werfen, wenn sie etwas über die Zahlen haben.

— AProgrammer

Antworten:

Die Grammatik

\begin{array}{l} S \to T_{0} \\ T_{n} \to a T_{n + 1} \\ T_{n} \to b T_{n + 1} \\ T_{n} \to b T_{n + 1} t_{n} \\ T_{N} \to t_{N} \end{array}

$\begin{array}{l} S \rightarrow T_0 \\ T_n \rightarrow a \; T_{n+1} \\ T_n \rightarrow b \; T_{n+1} \\ T_n \rightarrow b \; T_{n+1} \; t_n \\ T_N \rightarrow t_N \end{array}$

T_{N} \to t_{N} \dot{}

$T_N \rightarrow t_N \dot \\$

2^{N}

$2^N$

{t_{0} \dots t_{N - 1}}

$\{t_0 \dots t_{N-1}\}$

N

$N$

2^{N} / N

$2^N/N$

~~$T_N \rightarrow T_0$~~

— Ein Programmierer
quelle

Solche Untergrenzen sind manchmal schwierig zu konstruieren und können eine tiefere CS-Theorie hervorrufen (z. B. in Fällen von Komplexitätsklassentrennungen). Dieses Papier scheint eine theoretische Konstruktion / Untergrenze zu geben, die Sie suchen, z. B. in Satz 5, die eine Untergrenze für Gesamtsymbole und damit auch für Zustände festlegt. Die Referenzen enthalten auch andere ähnliche Konstruktionen / Untergrenzen.

$f(n,k) = 2^{\frac{1}{4}(n - k)} / n^2$ $k = 0,1;...,n−1$ $L_n$ $n \geq 3$ $f(n,k)$ $f(n,k)$

Zur Größe von Parsern und LR (k) -Grammaren / Leunga, Wotschkeb

— vzn
quelle

2^{(n - 1) / 4} / n^{2}

$2^{(n-1)/4}/n^2$

2^{n / 4} / n^{2}

$2^{n/4}/n^2$ gebunden an die Größe des LR (0) -Automaten für diese Sprache. Diese Antwort beantwortet also nicht die gestellte Frage.

— DW

1.1892

$1.1892$

DW hält Ihren Einwand für legitim und nähert sich dem Haarspalterei. Vielen Dank für die Klarstellung / Detail. Es ist eine relevante / fast direkte wissenschaftliche Antwort auf eine systematische Untersuchung seiner Frage, bei der es im Wesentlichen um Worst-Case-Sprachkonstruktionen in Blowup (n) geht. Es ist möglich, dass dies (fast?) "bekannteste Ergebnisse" in der Region sind. Eine legitime Antwort auf die Frage könnte negativ sein, auch bekannt als NEIN. Es sind keine besseren Ergebnisse bekannt als die, die der Fragesteller (er hat noch keine ausgestellt ) oder in der Literatur gefunden hat. Ich bin gespannt auf weitere endgültige Antworten!

— VZN