Statistiken und Big Data language-models

3

Wie wird beim Kneser-Ney-Glätten mit unsichtbaren Wörtern umgegangen?

Nach allem, was ich gesehen habe, ist die Kneser-Ney-Glättungsformel (zweiter Ordnung) auf die eine oder andere Weise gegeben als P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} mit dem normalisierenden Faktor alsλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ ( wn - 1)= D∑w′C( wn - …

15 machine-learning natural-language naive-bayes smoothing language-models

1

Was sind die Vor- und Nachteile der Anwendung punktueller gegenseitiger Informationen auf eine Wortkoexistenzmatrix vor der SVD?

Eine Möglichkeit zum Generieren von Worteinbettungen ist die folgende ( Spiegelung ): Holen Sie sich eine Korpora, zB "Ich fliege gerne. Ich mag NLP. Ich mag tiefes Lernen." Erstellen Sie daraus das Wort Cooccurrence Matrix: Führen Sie SVD für X.XX durch und behalten Sie die ersten kkk Spalten von U …

11 natural-language svd mutual-information word-embeddings language-models

2

Frage zu Continuous Bag of Words

Ich habe Probleme, diesen Satz zu verstehen: Die erste vorgeschlagene Architektur ähnelt der Feedforward-NNLM, bei der die nichtlineare verborgene Schicht entfernt und die Projektionsschicht für alle Wörter (nicht nur für die Projektionsmatrix) gemeinsam genutzt wird. Somit werden alle Wörter an dieselbe Position projiziert (ihre Vektoren werden gemittelt). Was ist die …

11 machine-learning neural-networks natural-language word-embeddings language-models

3

In Bezug auf die Verwendung des Bigram-Modells (N-Gramm) zum Erstellen eines Merkmalsvektors für ein Textdokument

Ein traditioneller Ansatz der Feature-Konstruktion für das Text-Mining ist der Bag-of-Word-Ansatz und kann mithilfe von tf-idf zum Einrichten des Feature-Vektors, der ein bestimmtes Textdokument charakterisiert, erweitert werden. Gegenwärtig versuche ich, ein Bi-Gramm-Sprachmodell oder (N-Gramm) zum Erstellen eines Merkmalsvektors zu verwenden, weiß aber nicht genau, wie das geht? Können wir einfach …

10 machine-learning data-mining text-mining natural-language language-models

1

Sprachmodellierung: Warum ist das Addieren von 1 so wichtig?

In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden …

8 distributions modeling natural-language language-models

Als «language-models» getaggte Fragen