word2vec ist ein zweischichtiges neuronales Netzwerk zur Textverarbeitung. Es nimmt Wörter als Eingabe und gibt einen Vektor entsprechend aus. Es verwendet eine Kombination aus Continuous Bag of Word und Skipgram-Modellimplementierung.
Was ist der beste Weg, um die semantische Ähnlichkeit von Wörtern herauszufinden? Word2Vec ist okay, aber nicht ideal: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # …
Ich habe zwei Sätze, S1 und S2, die beide (normalerweise) eine Wortanzahl unter 15 haben. Was sind die praktischsten und erfolgreichsten (maschinelles Lernen) Algorithmen, die möglicherweise einfach zu implementieren sind (neuronales Netzwerk ist in Ordnung, es sei denn, die Architektur ist so kompliziert wie Google Inception usw.). Ich suche einen …
Ich frage mich, wie ich Sätze / Absätze / Dokumente mit doc2vec in gensim kennzeichnen kann - aus praktischer Sicht. Müssen Sie für jeden Satz / Absatz / jedes Dokument eine eindeutige Bezeichnung haben (z. B. "Sent_123")? Dies scheint nützlich zu sein, wenn Sie sagen möchten, welche Wörter oder Sätze …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Ich verwende die Gensim Library in Python, um das word2vector-Modell zu verwenden und zu trainieren. Kürzlich habe ich versucht, meine Modellgewichte mit einem vorab trainierten word2vec-Modell zu initialisieren, z. B. mit einem vorab trainierten Modell von GoogleNewDataset. Ich habe ein paar Wochen damit zu kämpfen. Ich habe gerade herausgefunden, dass …
Ich suche nach vorab trainierten Gewichten für bereits trainierte Modelle wie Google News-Daten usw. Es fiel mir schwer, ein neues Modell mit einer ausreichenden Datenmenge (10 GB usw.) für mich selbst zu trainieren. Ich möchte also vom Transferlernen profitieren, bei dem ich vorab trainierte Ebenengewichte erhalten und diese Gewichte für …
Ich versuche, CNN (Convolutional Neural Network) zu verwenden, um Dokumente zu klassifizieren. CNN für kurze Texte / Sätze wurde in vielen Artikeln untersucht. Es scheint jedoch, dass keine Papiere CNN für Langtext oder Dokumente verwendet haben. Mein Problem ist, dass ein Dokument zu viele Funktionen enthält. In meinem Datensatz enthält …
Wenn Sie das word2vec-Modell trainieren (z. B. mit gensim), geben Sie eine Liste mit Wörtern / Sätzen an. Es scheint jedoch keine Möglichkeit zu geben, Gewichte für die Wörter anzugeben, die beispielsweise mit TF-IDF berechnet wurden. Ist es üblich, die Wortvektor-Einbettungen mit dem zugehörigen TF-IDF-Gewicht zu multiplizieren? Oder kann word2vec …
Ich habe gelesen, dass die Verteilungsdarstellung auf der Verteilungshypothese basiert, dass Wörter, die in einem ähnlichen Kontext vorkommen, tendenziell ähnliche Bedeutungen haben. Word2Vec und Doc2Vec werden beide gemäß dieser Hypothese modelliert. Aber in der Originalarbeit sind sogar sie als Distributed representation of words and phrasesund betitelt Distributed representation of sentences …
Ich bin ein Anfänger in neuronalen Netzen und erforsche derzeit das word2vec-Modell. Es fällt mir jedoch schwer zu verstehen, was die Feature-Matrix genau ist. Ich kann verstehen, dass die erste Matrix ein One-Hot-Codierungsvektor für ein bestimmtes Wort ist, aber was bedeutet die zweite Matrix? Was bedeutet konkret jeder dieser Werte …
Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht anwendet?
Word2vec und GloVe sind die beiden bekanntesten Methoden zum Einbetten von Wörtern. Viele Arbeiten wiesen darauf hin, dass diese beiden Modelle tatsächlich sehr nahe beieinander liegen und unter bestimmten Voraussetzungen eine Matrixfaktorisierung des ppmi der gleichzeitigen Vorkommen der Wörter im Korpus durchführen. Trotzdem kann ich nicht verstehen, warum wir für …
Ich arbeite an der Stimmungsanalyse über Tweets mit word2vec als Wortdarstellung. Ich habe mein word2vec-Modell trainiert. Aber wenn ich meinen Klassifikator trainiere, habe ich das Problem, dass jeder Tweet eine andere Länge hat und der Klassifikator (RandomForest) alle Beispiele benötigt, um die gleiche Größe zu haben. Derzeit mittle ich für …
Ich versuche eine Stimmungsanalyse durchzuführen. Um die Wörter in Wortvektoren umzuwandeln, verwende ich das word2vec-Modell. Angenommen, ich habe alle Sätze in einer Liste mit dem Namen "Sätze" und übergebe diese Sätze wie folgt an word2vec: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) Da ich keine Ahnung von Wortvektoren …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.