Statistiken und Big Data word2vec

5

Ich versuche zu verstehen, was Ähnlichkeit zwischen Latent Dirichlet Allocation und word2vec ist, um die Ähnlichkeit von Wörtern zu berechnen. Soweit ich weiß, ordnet LDA Wörter einem Vektor der Wahrscheinlichkeiten latenter Themen zu, während word2vec sie einem Vektor reeller Zahlen zuordnet (im Zusammenhang mit der Singulärwertzerlegung punktweiser gegenseitiger Informationen, siehe …

39 machine-learning self-study natural-language latent-variable word2vec

3

Wenden Sie Worteinbettungen auf das gesamte Dokument an, um einen Feature-Vektor zu erhalten

Wie verwende ich eine Worteinbettung, um ein Dokument einem Feature-Vektor zuzuordnen, der für die Verwendung mit überwachtem Lernen geeignet ist? Ein Wort Einbettungs bildet jedes Wort auf einen Vektor v ∈ R d , wobei d einige nicht allzu große Anzahl (zB 500). Beliebte Wort Einbettungen sind word2vec und Handschuh …

38 classification natural-language supervised-learning word2vec word-embeddings

1

Sollte ich die Wortvektoren von word2vec normalisieren, bevor ich sie verwende?

Ist es nach dem Training von Wortvektoren mit word2vec besser, sie zu normalisieren, bevor Sie sie für einige nachgelagerte Anwendungen verwenden? Dh was sind die Vor- / Nachteile einer Normalisierung?

38 natural-language word2vec word-embeddings

3

R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]

Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Wie funktioniert die negative Abtastung in word2vec?

Ich habe mich bemüht, das Konzept der negativen Abtastung im Kontext von word2vec zu verstehen. Ich bin nicht in der Lage, die Idee der [negativen] Probenahme zu verdauen. Zum Beispiel wird in Mikolovs Arbeiten die negative Stichprobenerwartung wie folgt formuliert Logσ( ⟨ W , c ⟩ ) + k ⋅ …

19 machine-learning word2vec word-embeddings

3

Warum ist Skip-Gram besser für seltene Wörter als CBOW?

Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

19 natural-language word2vec word-embeddings

4

Interpretation der negativen Kosinusähnlichkeit

Meine Frage mag albern sein. Also werde ich mich im Voraus entschuldigen. Ich habe versucht, das von der Stanford NLP-Gruppe vorbereitete GLOVE-Modell zu verwenden ( Link ). Ich bemerkte jedoch, dass meine Ähnlichkeitsergebnisse einige negative Zahlen zeigten. Das veranlasste mich sofort, mir die Wortvektordatendatei anzusehen. Anscheinend durften die Werte in …

16 machine-learning word2vec cosine-similarity

2

Wie berechnet sich die .similarity-Methode in SpaCy?

Nicht sicher, ob dies die richtige Stack-Site ist, aber es geht los. Wie funktioniert die .similiarity-Methode? Wow spaCy ist großartig! Das tfidf-Modell könnte einfacher sein, aber w2v mit nur einer Codezeile ?! In seinem 10-zeiligen Tutorial zu spaCy andrazhribernik zeigen wir die .similarity-Methode, die für Token, Sents, Word Chunks und …

13 natural-language word2vec tf-idf nltk

3

Warum ist hierarchisches Softmax besser für seltene Wörter, während negatives Sampling für häufige Wörter besser ist?

Ich frage mich, warum hierarchisches Softmax bei seltenen Wörtern besser ist, während negatives Sampling bei häufigen Wörtern bei den CBOW- und Skip-Gram-Modellen von word2vec besser ist. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

12 natural-language word2vec word-embeddings softmax

3

Wie generiert das Skip-Gram-Modell von Word2Vec die Ausgabevektoren?

Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …

11 neural-networks deep-learning natural-language word2vec word-embeddings

1

Algorithmen zum Einbetten von Wörtern in Bezug auf die Leistung

Ich versuche, ungefähr 60 Millionen Phrasen in einen Vektorraum einzubetten und dann die Kosinusähnlichkeit zwischen ihnen zu berechnen . Ich habe sklearns CountVectorizermit einer speziell entwickelten Tokenizer-Funktion verwendet, die Unigramme und Bigramme erzeugt. Es stellt sich heraus, dass ich eine enorme Anzahl von Spalten berücksichtigen muss, die linear in der …

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

2

Wie werden Parameter für t-SNE zur Reduzierung der Abmessungen bestimmt?

Ich bin sehr neu in Worteinbettungen. Ich möchte visualisieren, wie die Dokumente nach dem Lernen aussehen. Ich habe gelesen, dass t-SNE der Ansatz ist, dies zu tun. Ich habe 100.000 Dokumente mit 250 Dimensionen als Größe der Einbettung. Es gibt auch mehrere Pakete zur Verfügung. Für t-SNE weiß ich jedoch …

11 pca dimensionality-reduction word2vec word-embeddings tsne

2

Umgang mit unbekannten Wörtern in Sprachmodellierungsaufgaben mit LSTM

Für eine NLP-Aufgabe (Natural Language Processing) werden häufig word2vec-Vektoren als Einbettung für die Wörter verwendet. Es kann jedoch viele unbekannte Wörter geben, die nicht von den word2vec-Vektoren erfasst werden, einfach weil diese Wörter in den Trainingsdaten nicht oft genug gesehen werden (viele Implementierungen verwenden eine Mindestanzahl, bevor dem Wortschatz ein …

11 natural-language word2vec lstm word-embeddings

1

Ableitung des Kreuzentropieverlusts in word2vec

Ich versuche, mich durch den ersten Problemsatz des cs224d Online-Kurskurses in Stanford zu arbeiten, und ich habe einige Probleme mit Problem 3A: Wenn wir das Skip-Gramm-word2vec-Modell mit der Softmax-Vorhersagefunktion und der Cross-Entropy-Loss-Funktion verwenden, haben wir wollen die Gradienten in Bezug auf die vorhergesagten Wortvektoren berechnen. Also gegeben die Softmax-Funktion: wi^=Pr(wordi∣r^,w)=exp(wTir^)∑|V|jexp(wTjr^)wi^=Pr(wordi∣r^,w)=exp⁡(wiTr^)∑j|V|exp(wjTr^) …

10 machine-learning self-study word2vec

1

Farbverläufe für das Skipgramm word2vec

Ich gehe die Probleme in den schriftlichen Aufgabenproblemen der Stanford NLP Deep Learning-Klasse durch http://cs224d.stanford.edu/assignment1/assignment1_soln Ich versuche die Antwort für 3a zu verstehen, wo sie nach der Ableitung zum Vektor für das Mittelwort suchen. Angenommen, Sie erhalten einen vorhergesagten Wortvektor , der dem Mittelwort c für das Sprunggramm entspricht, und …

9 self-study neural-networks backpropagation word2vec

Als «word2vec» getaggte Fragen