Data Science nlp

3

Sind Word2Vec und Doc2Vec sowohl Verteilungsdarstellung als auch verteilte Darstellung?

Ich habe gelesen, dass die Verteilungsdarstellung auf der Verteilungshypothese basiert, dass Wörter, die in einem ähnlichen Kontext vorkommen, tendenziell ähnliche Bedeutungen haben. Word2Vec und Doc2Vec werden beide gemäß dieser Hypothese modelliert. Aber in der Originalarbeit sind sogar sie als Distributed representation of words and phrasesund betitelt Distributed representation of sentences …

10 nlp word-embeddings terminology word2vec

2

Extrahieren Sie kanonische Zeichenfolgen aus einer Liste von lauten Zeichenfolgen

Ich habe Tausende von Listen mit Zeichenfolgen, und jede Liste enthält ungefähr 10 Zeichenfolgen. Die meisten Zeichenfolgen in einer bestimmten Liste sind sehr ähnlich, obwohl einige Zeichenfolgen (selten) völlig unabhängig von den anderen sind und einige Zeichenfolgen irrelevante Wörter enthalten. Sie können als verrauschte Variationen einer kanonischen Saite betrachtet werden. …

10 nlp similarity information-retrieval

1

Wie kann man die Komplexität eines englischen Satzes bestimmen?

Ich arbeite an einer App, mit der Menschen Englisch als Zweitsprache lernen können. Ich habe bestätigt, dass Sätze beim Erlernen einer Sprache helfen, indem sie zusätzlichen Kontext bereitstellen. Ich habe das getan, indem ich eine kleine Recherche in einem Klassenzimmer mit 60 Schülern durchgeführt habe. Ich habe über hunderttausend Sätze …

10 machine-learning classification nlp text-mining

3

Beziehung zwischen Faltung in Mathematik und CNN

Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht anwendet?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Was ist ein generatives und diskriminatives Modell? Wie werden sie in der Verarbeitung natürlicher Sprache verwendet?

Diese Frage fragt nach generativen und diskriminativen Algorithmen. Kann jemand ein Beispiel für den Unterschied zwischen diesen Formen geben, wenn er auf die Verarbeitung natürlicher Sprache angewendet wird? Wie werden generative und diskriminative Modelle in NLP verwendet?

10 nlp language-model

5

So erstellen Sie eine gute Liste von Stoppwörtern

Ich suche nach Hinweisen, wie man eine Liste von Stoppwörtern kuratiert. Kennt / kann jemand eine gute Methode empfehlen, um Stoppwortlisten zur Vorverarbeitung und Filterung aus dem Datensatz selbst zu extrahieren? Die Daten: Eine große Menge menschlicher Texteingaben mit variabler Länge (Suchbegriffe und ganze Sätze (bis zu 200 Zeichen)) über …

9 data-mining nlp information-retrieval language-model

1

Verwenden von Vowpal Wabbit für NER

Das Vowpal Wabbit (VW) unterstützt offenbar die Sequenz-Tagging-Funktion über SEARN . Das Problem ist, dass ich nirgendwo eine detaillierte Parameterliste mit Erklärungen und einigen Beispielen finden kann. Das Beste, was ich finden konnte, ist Zinkovs Blogeintrag mit einem sehr kurzen Beispiel. Die Haupt-Wiki-Seite erwähnt SEARN kaum. Im ausgecheckten Quellcode habe …

9 machine-learning nlp

1

Berechnen Sie die Kosinusähnlichkeit in Apache Spark

Ich habe einen DataFrame mit IDF bestimmter Wörter berechnet. Zum Beispiel (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Geben Sie nun eine Abfrage Q, ich kann die TF-IDF dieser Abfrage berechnen. Wie berechne ich die Kosinusähnlichkeit der Abfrage mit allen Dokumenten im Datenrahmen (es gibt fast eine Million Dokumente)? Ich könnte …

9 machine-learning nlp apache-spark cosine-distance

2

Was ist eine LSTM-LM-Formulierung?

Ich lese diesen Artikel "Sequence to Sequence Learning mit neuronalen Netzen" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf Unter "2. Das Modell" steht: Das LSTM berechnet diese bedingte Wahrscheinlichkeit, indem es zuerst die feste dimensionale Darstellung v der Eingabesequenz (x1, ..., xT) erhält, die durch den letzten verborgenen Zustand des LSTM gegeben ist, und dann die …

8 machine-learning neural-network nlp rnn machine-translation

2

Gibt es eine Alternative zu nltk in Golang?

Golang ist eine meiner Lieblingssprachen und ich möchte es für ein persönliches NLP / ML-Projekt verwenden. Ist Golangs Ökosystem dafür gut und reich genug? Gibt es ein alternatives Paket für nltk in Golang?

8 nlp nltk software-recommendation

1

Komplexes Chunking mit NLTK

Ich versuche herauszufinden, wie der kaskadierende Chunker von NLTK gemäß Kapitel 7 des NLTK-Buches verwendet wird . Leider stoße ich bei der Durchführung nicht trivialer Chunking-Maßnahmen auf einige Probleme. Beginnen wir mit diesem Satz: "adventure movies between 2000 and 2015 featuring performances by daniel craig" Ich kann alle relevanten NPs …

8 python nlp nltk

1

Welche Klassifizierungsalgorithmen sollten Sie versuchen, um Textdaten in 300 Kategorien zu klassifizieren?

Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige …

8 machine-learning classification nlp text-mining

2

Verwendung von NLP zur Automatisierung der Kategorisierung der Benutzerbeschreibung

Ich habe eine große Anzahl von Kundenbeschwerden über die Produkte, die mein Unternehmen besitzt, und ich möchte eine Datenanalyse dieser Beschreibungen durchführen und jedem von ihnen eine Kategorie zuordnen. Beispiel: Ich muss die Anzahl der Beschwerden auf der Software- und Hardwareseite meines Produkts anhand der Kundenbeschwerden ermitteln. Derzeit verwende ich …

8 data-mining classification nlp categorical-data

2

Was sind einige Standardmethoden zur Berechnung der Entfernung zwischen einzelnen Suchanfragen?

Ich stellte eine ähnliche Frage nach der Entfernung zwischen "Dokumenten" (Wikipedia-Artikel, Nachrichten usw.). Ich habe dies zu einer separaten Frage gemacht, da Suchanfragen erheblich kleiner als Dokumente und erheblich lauter sind. Ich weiß daher nicht (und bezweifle), ob hier die gleichen Entfernungsmetriken verwendet werden würden. Entweder werden lexikalische Vanille-Distanzmetriken oder …

8 machine-learning nlp search

Als «nlp» getaggte Fragen