Die Worteinbettung ist der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Lerntechniken in NLP, bei denen Wörter in einem niedrigdimensionalen Raum relativ zur Vokabulargröße auf Vektoren reeller Zahlen abgebildet werden.
Ich habe über NCE (eine Form der Stichprobenauswahl) aus diesen beiden Quellen gelesen: Tensorflow-Zuschreibung Original Papier Kann mir jemand bei Folgendem helfen: Eine einfache Erklärung der Funktionsweise von NCE (Ich fand es schwierig, das oben Genannte zu analysieren und zu verstehen. Etwas Intuitives, das zur dort vorgestellten Mathematik führt, wäre …
Dies ist eher eine allgemeine NLP-Frage. Was ist die richtige Eingabe, um ein Wort zu trainieren, das Word2Vec einbettet? Sollten alle zu einem Artikel gehörenden Sätze ein separates Dokument in einem Korpus sein? Oder sollte jeder Artikel ein Dokument im Korpus sein? Dies ist nur ein Beispiel mit Python und …
Bei einem Satz: „Wenn ich das öffnen ?? Tür es beginnt Heizung automatisch“ Ich möchte die Liste der möglichen Wörter in bekommen? mit einer Wahrscheinlichkeit. Das Grundkonzept, das im word2vec-Modell verwendet wird, besteht darin, ein Wort im gegebenen Umgebungskontext "vorherzusagen". Was ist die richtige Operation für Kontextvektoren, wenn das Modell …
Was ist der beste Weg, um die semantische Ähnlichkeit von Wörtern herauszufinden? Word2Vec ist okay, aber nicht ideal: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # …
Ich frage mich, wie ich Sätze / Absätze / Dokumente mit doc2vec in gensim kennzeichnen kann - aus praktischer Sicht. Müssen Sie für jeden Satz / Absatz / jedes Dokument eine eindeutige Bezeichnung haben (z. B. "Sent_123")? Dies scheint nützlich zu sein, wenn Sie sagen möchten, welche Wörter oder Sätze …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Ich verwende die Gensim Library in Python, um das word2vector-Modell zu verwenden und zu trainieren. Kürzlich habe ich versucht, meine Modellgewichte mit einem vorab trainierten word2vec-Modell zu initialisieren, z. B. mit einem vorab trainierten Modell von GoogleNewDataset. Ich habe ein paar Wochen damit zu kämpfen. Ich habe gerade herausgefunden, dass …
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Ich habe an einem word2vec Gensim-Modell gearbeitet und fand es wirklich interessant. Ich bin daran interessiert herauszufinden, wie ein unbekanntes / unsichtbares Wort, wenn es mit dem Modell überprüft wird, ähnliche Begriffe aus dem trainierten Modell erhalten kann. Ist das möglich? Kann word2vec dafür optimiert werden? Oder der Trainingskorpus muss …
Ich habe gelesen, dass die Verteilungsdarstellung auf der Verteilungshypothese basiert, dass Wörter, die in einem ähnlichen Kontext vorkommen, tendenziell ähnliche Bedeutungen haben. Word2Vec und Doc2Vec werden beide gemäß dieser Hypothese modelliert. Aber in der Originalarbeit sind sogar sie als Distributed representation of words and phrasesund betitelt Distributed representation of sentences …
Ich möchte ein System entwerfen, das einen bestimmten Textabschnitt kategorisieren und den Kontext identifizieren kann: Wird mit benutzergenerierten Textabschnitten (wie Kommentaren / Fragen / Antworten) geschult. Jeder Gegenstand im Trainingssatz wird mit markiert. Also zum Beispiel ("Kategorie 1", "Textabsatz") Es wird Hunderte von Kategorien geben Was wäre der beste Ansatz, …
Ich möchte den Unterschied zwischen demselben Wort vergleichen, das in verschiedenen Quellen erwähnt wird. Das heißt, wie sich Autoren in der Verwendung von schlecht definierten Wörtern wie "Demokratie" unterscheiden. Ein kurzer Plan war Nehmen Sie die Bücher, in denen der Begriff "Demokratie" als Klartext erwähnt wird In jedem Buch, ersetzen …
Word2vec und GloVe sind die beiden bekanntesten Methoden zum Einbetten von Wörtern. Viele Arbeiten wiesen darauf hin, dass diese beiden Modelle tatsächlich sehr nahe beieinander liegen und unter bestimmten Voraussetzungen eine Matrixfaktorisierung des ppmi der gleichzeitigen Vorkommen der Wörter im Korpus durchführen. Trotzdem kann ich nicht verstehen, warum wir für …
Ich arbeite an der Stimmungsanalyse über Tweets mit word2vec als Wortdarstellung. Ich habe mein word2vec-Modell trainiert. Aber wenn ich meinen Klassifikator trainiere, habe ich das Problem, dass jeder Tweet eine andere Länge hat und der Klassifikator (RandomForest) alle Beispiele benötigt, um die gleiche Größe zu haben. Derzeit mittle ich für …
Ich versuche eine Stimmungsanalyse durchzuführen. Um die Wörter in Wortvektoren umzuwandeln, verwende ich das word2vec-Modell. Angenommen, ich habe alle Sätze in einer Liste mit dem Namen "Sätze" und übergebe diese Sätze wie folgt an word2vec: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) Da ich keine Ahnung von Wortvektoren …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.