Statistiken und Big Data word-embeddings

2

Was ist eine Einbettungsschicht in einem neuronalen Netzwerk?

In vielen neuronalen Netzwerkbibliotheken gibt es eingebettete Ebenen, wie in Keras oder Lasagne . Ich bin mir nicht sicher, ob ich seine Funktion verstehe, obwohl ich die Dokumentation gelesen habe. In der Keras-Dokumentation heißt es beispielsweise: Positive ganze Zahlen (Indizes) in Dichtevektoren fester Größe umwandeln, z. [[4], [20]] -> [[0,25, …

92 machine-learning neural-networks python word-embeddings

2

Wie funktioniert die Keras-Einbettungsebene?

Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) was die folgende Ausgabe …

70 text-mining word-embeddings keras

3

Wenden Sie Worteinbettungen auf das gesamte Dokument an, um einen Feature-Vektor zu erhalten

Wie verwende ich eine Worteinbettung, um ein Dokument einem Feature-Vektor zuzuordnen, der für die Verwendung mit überwachtem Lernen geeignet ist? Ein Wort Einbettungs bildet jedes Wort auf einen Vektor v ∈ R d , wobei d einige nicht allzu große Anzahl (zB 500). Beliebte Wort Einbettungen sind word2vec und Handschuh …

38 classification natural-language supervised-learning word2vec word-embeddings

1

Sollte ich die Wortvektoren von word2vec normalisieren, bevor ich sie verwende?

Ist es nach dem Training von Wortvektoren mit word2vec besser, sie zu normalisieren, bevor Sie sie für einige nachgelagerte Anwendungen verwenden? Dh was sind die Vor- / Nachteile einer Normalisierung?

38 natural-language word2vec word-embeddings

3

R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]

Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?

Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

1

Wie funktioniert die negative Abtastung in word2vec?

Ich habe mich bemüht, das Konzept der negativen Abtastung im Kontext von word2vec zu verstehen. Ich bin nicht in der Lage, die Idee der [negativen] Probenahme zu verdauen. Zum Beispiel wird in Mikolovs Arbeiten die negative Stichprobenerwartung wie folgt formuliert Logσ( ⟨ W , c ⟩ ) + k ⋅ …

19 machine-learning word2vec word-embeddings

3

Warum ist Skip-Gram besser für seltene Wörter als CBOW?

Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

19 natural-language word2vec word-embeddings

3

Wie die Einbettungsschicht in der Keras-Einbettungsschicht trainiert wird

Wie wird die Einbettungsschicht in der Keras-Einbettungsschicht trainiert? (Sagen wir, wir verwenden das Tensorflow-Backend, was bedeutet, dass es word2vec, Glove oder Fasttext ähnelt.) Angenommen, wir verwenden keine vorab trainierte Einbettung.

13 deep-learning keras word-embeddings

3

Warum ist hierarchisches Softmax besser für seltene Wörter, während negatives Sampling für häufige Wörter besser ist?

Ich frage mich, warum hierarchisches Softmax bei seltenen Wörtern besser ist, während negatives Sampling bei häufigen Wörtern bei den CBOW- und Skip-Gram-Modellen von word2vec besser ist. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

12 natural-language word2vec word-embeddings softmax

3

Wie generiert das Skip-Gram-Modell von Word2Vec die Ausgabevektoren?

Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …

11 neural-networks deep-learning natural-language word2vec word-embeddings

1

Algorithmen zum Einbetten von Wörtern in Bezug auf die Leistung

Ich versuche, ungefähr 60 Millionen Phrasen in einen Vektorraum einzubetten und dann die Kosinusähnlichkeit zwischen ihnen zu berechnen . Ich habe sklearns CountVectorizermit einer speziell entwickelten Tokenizer-Funktion verwendet, die Unigramme und Bigramme erzeugt. Es stellt sich heraus, dass ich eine enorme Anzahl von Spalten berücksichtigen muss, die linear in der …

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

2

Wie werden Parameter für t-SNE zur Reduzierung der Abmessungen bestimmt?

Ich bin sehr neu in Worteinbettungen. Ich möchte visualisieren, wie die Dokumente nach dem Lernen aussehen. Ich habe gelesen, dass t-SNE der Ansatz ist, dies zu tun. Ich habe 100.000 Dokumente mit 250 Dimensionen als Größe der Einbettung. Es gibt auch mehrere Pakete zur Verfügung. Für t-SNE weiß ich jedoch …

11 pca dimensionality-reduction word2vec word-embeddings tsne

1

Was sind die Vor- und Nachteile der Anwendung punktueller gegenseitiger Informationen auf eine Wortkoexistenzmatrix vor der SVD?

Eine Möglichkeit zum Generieren von Worteinbettungen ist die folgende ( Spiegelung ): Holen Sie sich eine Korpora, zB "Ich fliege gerne. Ich mag NLP. Ich mag tiefes Lernen." Erstellen Sie daraus das Wort Cooccurrence Matrix: Führen Sie SVD für X.XX durch und behalten Sie die ersten kkk Spalten von U …

11 natural-language svd mutual-information word-embeddings language-models

2

Frage zu Continuous Bag of Words

Ich habe Probleme, diesen Satz zu verstehen: Die erste vorgeschlagene Architektur ähnelt der Feedforward-NNLM, bei der die nichtlineare verborgene Schicht entfernt und die Projektionsschicht für alle Wörter (nicht nur für die Projektionsmatrix) gemeinsam genutzt wird. Somit werden alle Wörter an dieselbe Position projiziert (ihre Vektoren werden gemittelt). Was ist die …

11 machine-learning neural-networks natural-language word-embeddings language-models

Als «word-embeddings» getaggte Fragen