In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden (siehe einige hier aufgeführte ), die einen Teil der Wahrscheinlichkeitsmasse aus den im Modell attestierten n-Gramm nehmen und diese Masse auf n-Gramm niedrigerer Ordnung (kürzere Wortfolgen) verteilen ) Backoff-Wahrscheinlichkeiten.
Viele der Glättungstechniken werden mathematisch komplex, da die Berechnungen die Verteilung als Wahrscheinlichkeit beibehalten müssen (müssen sich zu 1 addieren).
Was ist der Grund für diese Einschränkung? Was ist der Vorteil der Verwendung strenger Wahrscheinlichkeiten für die Vorhersage anstelle von Scores anderer Art?
PS Die dem Link entsprechende Referenz ist [Stanley F. Chen und Joshua Goodman (1998), „Eine empirische Studie über Glättungstechniken für die Sprachmodellierung“].