Statistiken und Big Data natural-language

3

Rekursive oder rekursive neuronale Netze: Was ist besser für NLP?

Es gibt wiederkehrende neuronale Netze und rekursive neuronale Netze. Beide werden normalerweise mit dem gleichen Akronym bezeichnet: RNN. Laut Wikipedia sind Recurrent NN in der Tat Recursive NN, aber ich verstehe die Erklärung nicht wirklich. Außerdem scheine ich nicht zu finden, was (mit Beispielen oder so) für die Verarbeitung natürlicher …

48 machine-learning neural-networks deep-learning natural-language

7

Neuronale Netzreferenzen (Lehrbücher, Online-Kurse) für Anfänger

Ich möchte Neuronale Netze lernen. Ich bin ein Computerlinguist. Ich kenne statistische Methoden des maschinellen Lernens und kann in Python programmieren. Ich möchte mit seinen Konzepten beginnen und ein oder zwei populäre Modelle kennen, die aus Sicht der Computerlinguistik nützlich sein können. Ich habe im Internet nachgeschlagen und ein paar …

43 neural-networks deep-learning references natural-language computer-vision

5

LDA gegen word2vec

Ich versuche zu verstehen, was Ähnlichkeit zwischen Latent Dirichlet Allocation und word2vec ist, um die Ähnlichkeit von Wörtern zu berechnen. Soweit ich weiß, ordnet LDA Wörter einem Vektor der Wahrscheinlichkeiten latenter Themen zu, während word2vec sie einem Vektor reeller Zahlen zuordnet (im Zusammenhang mit der Singulärwertzerlegung punktweiser gegenseitiger Informationen, siehe …

39 machine-learning self-study natural-language latent-variable word2vec

3

Wenden Sie Worteinbettungen auf das gesamte Dokument an, um einen Feature-Vektor zu erhalten

Wie verwende ich eine Worteinbettung, um ein Dokument einem Feature-Vektor zuzuordnen, der für die Verwendung mit überwachtem Lernen geeignet ist? Ein Wort Einbettungs bildet jedes Wort auf einen Vektor v ∈ R d , wobei d einige nicht allzu große Anzahl (zB 500). Beliebte Wort Einbettungen sind word2vec und Handschuh …

38 classification natural-language supervised-learning word2vec word-embeddings

1

Sollte ich die Wortvektoren von word2vec normalisieren, bevor ich sie verwende?

Ist es nach dem Training von Wortvektoren mit word2vec besser, sie zu normalisieren, bevor Sie sie für einige nachgelagerte Anwendungen verwenden? Dh was sind die Vor- / Nachteile einer Normalisierung?

38 natural-language word2vec word-embeddings

3

Intuitiver Unterschied zwischen versteckten Markov-Modellen und bedingten Zufallsfeldern

Ich verstehe, dass HMMs (Hidden Markov Models) generative Modelle und CRF diskriminative Modelle sind. Ich verstehe auch, wie CRFs (Conditional Random Fields) entworfen und verwendet werden. Was ich nicht verstehe, ist, wie sie sich von HMM unterscheiden? Ich habe gelesen, dass wir im Fall von HMM unseren nächsten Zustand nur …

33 machine-learning hidden-markov-model natural-language conditional-random-field

3

R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]

Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

2

Ist die Kosinusähnlichkeit identisch mit dem 12-normalisierten euklidischen Abstand?

Gleichbedeutend damit , dass es für eine Ähnlichkeitsrangfolge zwischen einem Vektor u und einer Menge von Vektoren V zu gleichen Ergebnissen kommt . Ich habe ein Vektorraummodell, dessen Parameter Distanzmessung (euklidische Distanz, Kosinusähnlichkeit) und Normalisierungstechnik (keine, l1, l2) sind. Nach meinem Verständnis sollten die Ergebnisse der Einstellungen [cosine, none] identisch …

27 normalization natural-language euclidean cosine-distance cosine-similarity

3

Themenmodelle und Methoden zum gemeinsamen Auftreten von Wörtern

Beliebte Themenmodelle wie LDA bilden in der Regel Clusterwörter, die in der Regel zusammen in einem Thema (Cluster) vorkommen. Was ist der Hauptunterschied zwischen solchen Themenmodellen und anderen einfachen Clustering-Ansätzen auf der Basis von Koexistenz wie PMI? (PMI steht für Pointwise Mutual Information und wird verwendet, um die Wörter zu …

26 machine-learning text-mining natural-language topic-models

1

Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?

Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

Warum ist Skip-Gram besser für seltene Wörter als CBOW?

Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

19 natural-language word2vec word-embeddings

2

Warum fällt die Verarbeitung natürlicher Sprachen nicht in den Bereich des maschinellen Lernens? [geschlossen]

Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden …

18 machine-learning text-mining natural-language

3

Wie wird beim Kneser-Ney-Glätten mit unsichtbaren Wörtern umgegangen?

Nach allem, was ich gesehen habe, ist die Kneser-Ney-Glättungsformel (zweiter Ordnung) auf die eine oder andere Weise gegeben als P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} mit dem normalisierenden Faktor alsλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ ( wn - 1)= D∑w′C( wn - …

15 machine-learning natural-language naive-bayes smoothing language-models

3

Themenmodelle für kurze Dokumente

Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten …

14 references text-mining topic-models natural-language

2

Ab welchem n werden n-Gramm kontraproduktiv?

Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm). Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette …

13 text-mining natural-language

Als «natural-language» getaggte Fragen