Nach allem, was ich gesehen habe, ist die Kneser-Ney-Glättungsformel (zweiter Ordnung) auf die eine oder andere Weise gegeben als
mit dem normalisierenden Faktor als
und die Fortsetzungswahrscheinlichkeit eines Wortes
Dabei ist die Anzahl der Kontexte, in denen gesehen wurde, oder einfacher die Anzahl der eindeutigen Wörter , die vor dem angegebenen Wort . Nach meinem Verständnis kann die Formel rekursiv angewendet werden.
Nun werden bekannte Wörter in unbekannten Kontexten für verschiedene n-Gramm-Längen gut behandelt, aber was nicht erklärt wird, ist, was zu tun ist, wenn Wörter außerhalb des Wörterbuchs vorhanden sind. Ich habe versucht, diesem Beispiel zu folgen, das besagt, dass im Rekursionsschritt für Unigramme . Das Dokument verwendet dies dann - unter Anführung von Chen und Goodman -, um die obige Formel als P ^ 1_ {KN} (w) = P_ {cont} (w) zu rechtfertigen .
Ich verstehe nicht, wie es in Gegenwart eines unbekannten Wortes w = \ text {unknown} funktioniert . In diesen Fällen ist da das unbekannte Wort offensichtlich nichts bezüglich des Trainingssatzes fortsetzt. Ebenso wird die Anzahl von n-Gramm .
Außerdem kann der gesamte Term null sein, wenn eine Folge unbekannter Wörter - beispielsweise ein Trigramm von OOD-Wörtern - auftritt.
Was vermisse ich?