Gibt es eine andere Lösung für das Problem "Dangling else" als "Match Nearest"?

9

Die folgende kontextfreie Grammatik zeigt eine Mehrdeutigkeit vom Typ "Dangling else" (stellen Sie sich vor, steht für und steht für und steht für eine andere Art von Anweisung oder Block): $a$ if expr then $b$ else $c$ Zum Beispiel kannalsoder alsanalysiert werden(dies ist das einfachste / kürzeste mehrdeutige Wort für diese Grammatik).

\begin{aligned} S & \to a S b S | a S | c \end{aligned}

$\begin{aligned} S &\rightarrow aSbS \;|\; aS \;|\; c\\ \end{aligned}$

a a c b c

$aacbc$

(a (a c b c))

$(a(acbc))$

(a (a c) b c)

$(a(ac)bc)$

Die "Standard" -Methode zum Auflösen dieser "baumelnden anderen" Mehrdeutigkeit zwingt die "sonst" ( ) -Anweisung dazu, sich mit dem nächsten / innersten "Wenn-Dann" ( ) zu paaren . Dies kann wie folgt erreicht werden: $b$ $a$ Diese Grammatik ist eindeutig. Im obigen Beispiel wird dasParsenerzwungen.

\begin{aligned} S & \to a T b S | a S | c \\ T & \to a T b T | c \end{aligned}

$\begin{aligned} S &\rightarrow aTbS \;|\; aS \;|\; c\\ T &\rightarrow aTbT \;|\; c\\ \end{aligned}$

(a (a c b c))

$(a(acbc))$

Frage: Gibt es einen anderen natürlichen Weg, um die Mehrdeutigkeit aufzulösen, die das Parsen von erzwingen würde ? Mit anderen Worten, ich suche nach einer Grammatik, die dieselbe Sprache wie die beiden oben genannten erzeugt, die eindeutig ist und als analysiert . $(a(ac)bc)$ $aacbc$ $aacbc$ $(a(ac)bc)$

Bemerkung: Mein erster Versuch war wie folgt: , das die Mehrdeutigkeit vonnach Bedarfauflöst- aber diese Grammatik ist immer noch mehrdeutig:kann analysiert werden alsoder als.

\begin{aligned} S & \to a S b S | a U | c \\ U & \to a U | c \end{aligned}

$\begin{aligned} S &\rightarrow aSbS \;|\; aU \;|\; c\\ U &\rightarrow aU \;|\; c\\ \end{aligned}$

a a c b c

$aacbc$

a a c b a c b c

$aacbacbc$

(a (a c) b (a c b c))

$(a(ac)b(acbc))$

(a (a c b (a c)) b c)

$(a(acb(ac))bc)$

— Gro-Tsen
quelle

1

Und in Ihrem letzten Beispiel, welche der beiden möglichen Parsen betrachten Sie als "natürlich" oder richtig und warum?

— Rici

@rici Ja, das ist eine knifflige Frage!, und ich weiß es nicht. Ich werde mit einer eindeutigen Grammatik zufrieden sein, die entweder das Parsen von

. Was ich vor allem interessiert , ist etwa , dass

(mit mehr

's als

' s) entspricht der

- ten letzten

mit dem

- ten

(und Blätter der innerste

unübertroffen).

a a c b a c b c

$aacbacbc$

a a a \dots a a a c b c b c \dots b c

$aaa\ldots aaacbcbc\ldots bc$

a

$a$

b

$b$

k

$k$

b

$b$

k

$k$

a

$a$

a

$a$

— Gro-Tsen

7

$a$ $b$ $a$ $b$ $c$ $b$

Die traditionelle "Match Nearest" -Dangling-else-Auflösung entspricht jedem Abschluss mit dem neuesten, noch nicht übereinstimmenden Open. Das bedeutet, dass es zwischen einem übereinstimmenden Öffnen und seinem übereinstimmenden Schließen niemals ein unübertroffenes Öffnen (oder Schließen) gibt.

$($ $()()$ $)$

Dieser Abgleich muss von außen nach innen erfolgen, damit erst dann ein Abgleich für einen Abschluss versucht wird, wenn alle umschließenden Paare abgeglichen wurden. Diese Tatsache macht es unmöglich, eine Analyse mit einem Bounded-Lookahead-Algorithmus zu erstellen, da die Analyse von beiden Enden nach innen arbeiten muss, nachdem die Zeichenfolge in vollständig übereinstimmende Segmente aufgeteilt wurde (da diese den Bereich potenzieller Übereinstimmungen effektiv einschränken).

Die Tatsache, dass es keinen Online-Parser von links nach rechts gibt, bedeutet jedoch nicht, dass es keine eindeutige CFG gibt. (Offensichtlich: Eine palindromische Sprache muss von beiden Enden zur Mitte hin analysiert werden, aber es ist einfach, eine eindeutige Grammatik zu schreiben.)

Um eine Grammatik für das Klammerproblem "am weitesten übereinstimmend" zu erstellen, habe ich mich auf die Tatsache verlassen, dass auf ein nicht übereinstimmendes Öffnen kein übereinstimmendes Öffnen folgen kann. Wenn dies der Fall wäre, würde die am weitesten übereinstimmende Eigenschaft nicht zutreffen, da das nicht übereinstimmende Öffnen mit dem Schließen des übereinstimmenden Open übereinstimmen könnte. Die Tatsache, dass es nicht übereinstimmt, verstößt also gegen die am weitesten übereinstimmende Eigenschaft.

Hier ist also die etwas klobige Grammatik:

\begin{aligned} S & \to U | M \\ U & \to T | a U b T | a U b c | a M b U \\ M & \to a M b M | c \\ T & \to a T | a c \end{aligned}

$\begin{aligned} S&\to U \;|\; M \\ U&\to T \;|\; a U b T \;|\; a U b c \;|\; a M b U \\ M&\to a M b M \;|\; c \\ T&\to a T \;|\; a c \\ \end{aligned}$

$S$ $M$ $U$ $a$ $T$ $a$ $T$ $T$ $U$ $U$ $T$

$U$ $U$ $S$ $M^* U$ $S$ $M$ $U$ $M$ $U$

Wahrscheinlich gibt es eine bessere Problemumgehung als die, die ich gewählt habe. Aber dieser scheint zu funktionieren, und er spielt gut mit Bisons GLR-Parser, mit dem ich ihn getestet habe. Dieser Parser beschwert sich über mehrdeutige Analysen, es sei denn, Sie schreiben zusätzlichen Code, um mit der Mehrdeutigkeit umzugehen, und ich war zu faul, dies zu tun. Ich habe es mit Zeichenfolgen von bis zu 20 Öffnen + Schließen getestet, und es scheint eine eindeutige Analyse für jede korrekt verschachtelte Sequenz erzeugt zu haben, ohne Parsen für falsch verschachtelte Sequenzen zu erstellen.

— Rici
quelle

Herzlichen Glückwunsch zu dem, was ich festgestellt hatte, war wahrscheinlich unmöglich! Ich habe experimentell überprüft, dass diese Grammatik für Wörter mit einer Länge von ≤ 16 tatsächlich eindeutig ist und dieselben Wörter wie die in meiner Frage erzeugten erzeugt. Jetzt muss ich im Detail verstehen, wie es funktioniert!

— Gro-Tsen

S \to a S b T | a M b S

$S \to aSbT \;|\; aMbS$

M

$M$

T \to a T | c

$T\to aT\;|\;c$

U

$U$

0

Nimm a + b + c + d + e und abcde. Es gibt zwei offensichtliche Möglichkeiten, wie eine Grammatik diese analysieren könnte, aber es gibt eine Möglichkeit, die wir verwenden.

Im Fall des "baumelnden Anderen" sehen die Leute das nicht so. Stattdessen wird die Syntax als "if" interpretiert, gefolgt von null, einem oder mehreren "else if", gefolgt von einem optionalen "else".

— gnasher729
quelle

a c b a c b a c b c

$acbacbacbc$