Statistiken und Big Data natural-language

2

Wie berechnet sich die .similarity-Methode in SpaCy?

Nicht sicher, ob dies die richtige Stack-Site ist, aber es geht los. Wie funktioniert die .similiarity-Methode? Wow spaCy ist großartig! Das tfidf-Modell könnte einfacher sein, aber w2v mit nur einer Codezeile ?! In seinem 10-zeiligen Tutorial zu spaCy andrazhribernik zeigen wir die .similarity-Methode, die für Token, Sents, Word Chunks und …

13 natural-language word2vec tf-idf nltk

3

Warum ist hierarchisches Softmax besser für seltene Wörter, während negatives Sampling für häufige Wörter besser ist?

Ich frage mich, warum hierarchisches Softmax bei seltenen Wörtern besser ist, während negatives Sampling bei häufigen Wörtern bei den CBOW- und Skip-Gram-Modellen von word2vec besser ist. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

12 natural-language word2vec word-embeddings softmax

2

Erfassung von Anfangsmustern bei Verwendung der verkürzten Backpropagation durch die Zeit (RNN / LSTM)

Angenommen, ich verwende ein RNN / LSTM, um eine Stimmungsanalyse durchzuführen, bei der es sich um einen 1: 1-Ansatz handelt (siehe diesen Blog ). Das Netzwerk wird durch eine verkürzte Backpropagation Through Time (BPTT) trainiert, bei der das Netzwerk wie gewohnt nur für 30 letzte Schritte abgewickelt wird. In meinem …

12 neural-networks deep-learning natural-language backpropagation

2

Warum wird bei der Textsprachenidentifikation n-Gramm anstelle von Wörtern verwendet?

In zwei weit verbreiteten Spracherkennungsbibliotheken, Compact Language Detector 2 für C ++ und Language Detector für Java, verwendeten beide (zeichenbasierte) n-Gramme, um Textfunktionen zu extrahieren. Warum wird ein Wortsack (einzelnes Wort / Wörterbuch) nicht verwendet, und was sind die Vor- und Nachteile von Wortsack und n-Gramm? Was sind auch einige …

12 machine-learning classification text-mining natural-language

2

Wie wende ich neuronale Netze bei Problemen mit der Mehrfachmarkenklassifizierung an?

Beschreibung: Die Problemdomäne sei die Dokumentklassifikation, wenn eine Menge von Merkmalsvektoren existiert, die jeweils zu einer oder mehreren Klassen gehören. Beispielsweise doc_1könnte ein Dokument zu gehörenSports und EnglishKategorien gehören. Frage: Was wäre die Bezeichnung für einen Merkmalsvektor, wenn Sie das neuronale Netz für die Klassifizierung verwenden? Wäre es ein Vektor, …

12 machine-learning neural-networks natural-language multilabel

3

Wie generiert das Skip-Gram-Modell von Word2Vec die Ausgabevektoren?

Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …

11 neural-networks deep-learning natural-language word2vec word-embeddings

1

Algorithmen zum Einbetten von Wörtern in Bezug auf die Leistung

Ich versuche, ungefähr 60 Millionen Phrasen in einen Vektorraum einzubetten und dann die Kosinusähnlichkeit zwischen ihnen zu berechnen . Ich habe sklearns CountVectorizermit einer speziell entwickelten Tokenizer-Funktion verwendet, die Unigramme und Bigramme erzeugt. Es stellt sich heraus, dass ich eine enorme Anzahl von Spalten berücksichtigen muss, die linear in der …

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

1

Klarstellung der Erwartungsmaximierung

Ich fand ein sehr hilfreiches Tutorial zum EM-Algorithmus . Das Beispiel und das Bild aus dem Tutorial sind einfach genial. Verwandte Frage zur Berechnung von Wahrscheinlichkeiten Wie funktioniert die Erwartungsmaximierung? Ich habe noch eine Frage, wie man die im Tutorial beschriebene Theorie mit dem Beispiel verbindet. gtgtg_tlogP(x;Θ)log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t))=logP(x;Θ^(t))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = …

11 machine-learning clustering algorithms natural-language

1

Was sind die Vor- und Nachteile der Anwendung punktueller gegenseitiger Informationen auf eine Wortkoexistenzmatrix vor der SVD?

Eine Möglichkeit zum Generieren von Worteinbettungen ist die folgende ( Spiegelung ): Holen Sie sich eine Korpora, zB "Ich fliege gerne. Ich mag NLP. Ich mag tiefes Lernen." Erstellen Sie daraus das Wort Cooccurrence Matrix: Führen Sie SVD für X.XX durch und behalten Sie die ersten kkk Spalten von U …

11 natural-language svd mutual-information word-embeddings language-models

2

Frage zu Continuous Bag of Words

Ich habe Probleme, diesen Satz zu verstehen: Die erste vorgeschlagene Architektur ähnelt der Feedforward-NNLM, bei der die nichtlineare verborgene Schicht entfernt und die Projektionsschicht für alle Wörter (nicht nur für die Projektionsmatrix) gemeinsam genutzt wird. Somit werden alle Wörter an dieselbe Position projiziert (ihre Vektoren werden gemittelt). Was ist die …

11 machine-learning neural-networks natural-language word-embeddings language-models

2

Umgang mit unbekannten Wörtern in Sprachmodellierungsaufgaben mit LSTM

Für eine NLP-Aufgabe (Natural Language Processing) werden häufig word2vec-Vektoren als Einbettung für die Wörter verwendet. Es kann jedoch viele unbekannte Wörter geben, die nicht von den word2vec-Vektoren erfasst werden, einfach weil diese Wörter in den Trainingsdaten nicht oft genug gesehen werden (viele Implementierungen verwenden eine Mindestanzahl, bevor dem Wortschatz ein …

11 natural-language word2vec lstm word-embeddings

5

Wie wird die Streuung in Worthäufigkeitsdaten gemessen?

Wie kann ich das Ausmaß der Streuung in einem Vektor von Wortzahlen quantifizieren? Ich suche nach einer Statistik, die für Dokument A hoch ist, weil sie viele verschiedene Wörter enthält, die selten vorkommen, und niedrig für Dokument B, weil sie ein Wort (oder einige Wörter) enthält, die häufig vorkommen. Wie …

10 variance natural-language gini dispersion bag-of-words

1

Grundlegendes zur Verwendung von Logarithmen im TF-IDF-Logarithmus

Ich habe gelesen: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Aber ich kann nicht genau verstehen, warum die Formel so konstruiert wurde, wie sie ist. Was ich tue Verstehe: iDF sollte auf einer bestimmten Ebene messen, wie häufig ein Begriff S in jedem der Dokumente vorkommt, wobei der Wert abnimmt, wenn der Begriff häufiger vorkommt. Aus …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

In Bezug auf die Verwendung des Bigram-Modells (N-Gramm) zum Erstellen eines Merkmalsvektors für ein Textdokument

Ein traditioneller Ansatz der Feature-Konstruktion für das Text-Mining ist der Bag-of-Word-Ansatz und kann mithilfe von tf-idf zum Einrichten des Feature-Vektors, der ein bestimmtes Textdokument charakterisiert, erweitert werden. Gegenwärtig versuche ich, ein Bi-Gramm-Sprachmodell oder (N-Gramm) zum Erstellen eines Merkmalsvektors zu verwenden, weiß aber nicht genau, wie das geht? Können wir einfach …

10 machine-learning data-mining text-mining natural-language language-models

2

Wie kann ich Zeichenfolgen nach gemeinsamen Themen gruppieren?

Ich versuche zum Beispiel, Strings über das Programmieren mit anderen Strings über das Programmieren, Strings über die Physik mit anderen Strings über die Physik usw. für eine breite Palette von Themen zu gruppieren. Trotz des krassen theoretischen sprachlichen Aspekts des Problems möchte ich dies tatsächlich mit Programmierung / Software tun. …

10 natural-language data-mining

Als «natural-language» getaggte Fragen