Die Verarbeitung natürlicher Sprache ist eine Reihe von Techniken aus den Bereichen Linguistik, künstliche Intelligenz, maschinelles Lernen und Statistik, die darauf abzielen, menschliche Sprachen zu verarbeiten und zu verstehen.
Es gibt wiederkehrende neuronale Netze und rekursive neuronale Netze. Beide werden normalerweise mit dem gleichen Akronym bezeichnet: RNN. Laut Wikipedia sind Recurrent NN in der Tat Recursive NN, aber ich verstehe die Erklärung nicht wirklich. Außerdem scheine ich nicht zu finden, was (mit Beispielen oder so) für die Verarbeitung natürlicher …
Ich möchte Neuronale Netze lernen. Ich bin ein Computerlinguist. Ich kenne statistische Methoden des maschinellen Lernens und kann in Python programmieren. Ich möchte mit seinen Konzepten beginnen und ein oder zwei populäre Modelle kennen, die aus Sicht der Computerlinguistik nützlich sein können. Ich habe im Internet nachgeschlagen und ein paar …
Ich versuche zu verstehen, was Ähnlichkeit zwischen Latent Dirichlet Allocation und word2vec ist, um die Ähnlichkeit von Wörtern zu berechnen. Soweit ich weiß, ordnet LDA Wörter einem Vektor der Wahrscheinlichkeiten latenter Themen zu, während word2vec sie einem Vektor reeller Zahlen zuordnet (im Zusammenhang mit der Singulärwertzerlegung punktweiser gegenseitiger Informationen, siehe …
Wie verwende ich eine Worteinbettung, um ein Dokument einem Feature-Vektor zuzuordnen, der für die Verwendung mit überwachtem Lernen geeignet ist? Ein Wort Einbettungs bildet jedes Wort auf einen Vektor v ∈ R d , wobei d einige nicht allzu große Anzahl (zB 500). Beliebte Wort Einbettungen sind word2vec und Handschuh …
Ist es nach dem Training von Wortvektoren mit word2vec besser, sie zu normalisieren, bevor Sie sie für einige nachgelagerte Anwendungen verwenden? Dh was sind die Vor- / Nachteile einer Normalisierung?
Ich verstehe, dass HMMs (Hidden Markov Models) generative Modelle und CRF diskriminative Modelle sind. Ich verstehe auch, wie CRFs (Conditional Random Fields) entworfen und verwendet werden. Was ich nicht verstehe, ist, wie sie sich von HMM unterscheiden? Ich habe gelesen, dass wir im Fall von HMM unseren nächsten Zustand nur …
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …
Gleichbedeutend damit , dass es für eine Ähnlichkeitsrangfolge zwischen einem Vektor u und einer Menge von Vektoren V zu gleichen Ergebnissen kommt . Ich habe ein Vektorraummodell, dessen Parameter Distanzmessung (euklidische Distanz, Kosinusähnlichkeit) und Normalisierungstechnik (keine, l1, l2) sind. Nach meinem Verständnis sollten die Ergebnisse der Einstellungen [cosine, none] identisch …
Beliebte Themenmodelle wie LDA bilden in der Regel Clusterwörter, die in der Regel zusammen in einem Thema (Cluster) vorkommen. Was ist der Hauptunterschied zwischen solchen Themenmodellen und anderen einfachen Clustering-Ansätzen auf der Basis von Koexistenz wie PMI? (PMI steht für Pointwise Mutual Information und wird verwendet, um die Wörter zu …
Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …
Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .
Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden …
Nach allem, was ich gesehen habe, ist die Kneser-Ney-Glättungsformel (zweiter Ordnung) auf die eine oder andere Weise gegeben als P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} mit dem normalisierenden Faktor alsλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ ( wn - 1)= D∑w′C( wn - …
Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten …
Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm). Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.