Die Verarbeitung natürlicher Sprache ist eine Reihe von Techniken aus den Bereichen Linguistik, künstliche Intelligenz, maschinelles Lernen und Statistik, die darauf abzielen, menschliche Sprachen zu verarbeiten und zu verstehen.
Der Versuch, die Beziehung zwischen Kreuzentropie und Ratlosigkeit zu verstehen. Im allgemeinen für ein Modell M , Perplexity (M) = 2 ^ Entropie (M) . Gilt diese Beziehung für alle verschiedenen n-Gramme, dh Unigramm, Bigram usw.?
Laut der Dokumentation der removeSparseTermsFunktion aus dem tmPaket bedeutet dies Sparsamkeit: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor …
Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …
Mein Lehrbuch listet die IDF als wol o g( 1 + N.nt)log(1+Nnt)log(1+\frac{N}{n_t}) : Anzahl der DokumenteN.NN : Anzahl der Dokumente, die den Begriff t enthaltenntntn_tttt Wikipedia listet diese Formel als eine geglättete Version des aktuellen . Das verstehe ich: es reicht vonlog(N.log(Nnt)log(Nnt)log(\frac{N}{n_t})bis∞,was intuitiv erscheint. Aberlog(1+N.log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftygeht vonlog(1+1)nach∞,was so seltsam erscheint ... …
Meine Frage bezieht sich allgemein auf Singular Value Decomposition (SVD) und insbesondere auf Latent Semantic Indexing (LSI). Angenommen, ich habe , das Häufigkeiten von 5 Wörtern für 7 Dokumente enthält.EINw o r d× do c u m e n tAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), …
Ich bin mir nicht sicher, ob diese Frage hier völlig angemessen ist. Wenn nicht, bitte löschen. Ich bin ein Student der Wirtschaftswissenschaften. Für ein Projekt, das Probleme in der Sozialversicherung untersucht, habe ich Zugang zu einer großen Anzahl von administrativen Fallberichten (> 200.000), die sich mit Eignungsbewertungen befassen. Diese Berichte …
Ich habe dies anfangs beim Stapelüberlauf gefragt und wurde auf diese Site verwiesen. Ich implementiere einige unbeaufsichtigte Methoden zur Zusammenfassung von Dokumenten, die auf der Auswahl / Extraktion von Inhalten basieren, und bin verwirrt darüber, was mein Lehrbuch als "Log-Likelihood-Verhältnis" bezeichnet. Das Buch Speech and Language Processing von Jurafsky & …
Ich lese dieses Papier: Skype-Übersetzer, bei dem CD-DNN-HMMs (kontextabhängige tiefe neuronale Netze mit Hidden-Markov-Modellen) verwendet werden. Ich kann die Idee des Projekts und die Architektur, die sie entworfen haben, verstehen, aber ich verstehe nicht, was die Senone sind . Ich habe nach einer Definition gesucht, aber nichts gefunden - Wir …
Wie wirkt sich die Auswahl von Wortvektoren aus (Eingabewortmatrix) im Vergleich zu Wortvektoren aus W ' (Ausgabewortmatrix) in den CBOW- und Sprunggrammmodellen von word2vec auf die Qualität der resultierenden Wortvektoren aus?W.WWW′W′W' CBOW: Skip-Gramm:
Ich möchte ein neuronales Netzwerk mit einer Zeichenfolge als Eingabevektor trainieren. Lernbeispiele sind unterschiedlich lang und aus diesem Grund weiß ich nicht, wie ich sie darstellen soll. Angenommen, ich habe zwei Beispiele für Sequenzen, hier Namen: john doe maurice delanoe Das erste Beispiel hat die Länge 8, das zweite die …
Ich möchte eine Stimmungsanalyse für Text durchführen, habe mehrere Artikel durchgesehen, einige verwenden "Naive Bayes" und andere sind "Recurrent Neural Network (LSTM)" , andererseits habe ich eine Python-Bibliothek für die Stimmungsanalyse gesehen, die ist nltk. Es verwendet "Naive Bayes". Kann jemand erklären, was der Unterschied zwischen der Verwendung der beiden …
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …
In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden …
Ich habe diesen Artikel von Michael Honiball (Schöpfer von Spacy) gelesen, in dem er über das Problem des „katastrophalen Vergessens“ spricht . Hier sagt er, wenn wir ein vorab trainiertes Modell optimieren möchten, um ein neues Etikett hinzuzufügen oder bestimmte Fehler zu korrigieren, kann dies das Problem des „katastrophalen Vergessens“ …
Ich habe das Standard- / berühmte word2vec- Modell gelesen und gemäß den Standardnotizen für cs224n ändert sich die Zielfunktion von: J.o r i gi n a l= -∑j = 0 , j ≠ m2 mu⊤c - m + jvc+ 2 m l o g(∑k = 1| V.|e x p (u⊤kvc) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.