Data Science nlp

1

Ich kam vor kurzem in den Bedingungen Word2Vec , Sentence2Vec und Doc2Vec und Art verwirrt wie ich bin neu in Vektor - Semantik. Kann jemand bitte die Unterschiede in diesen Methoden in einfachen Worten erläutern. Was sind die am besten geeigneten Aufgaben für jede Methode?

18 machine-learning data-mining clustering nlp unsupervised-learning

4

Verbessern Sie die Geschwindigkeit der Implementierung von t-sne in Python für große Datenmengen

Ich würde gerne eine Dimensionsreduktion für fast 1 Million Vektoren mit jeweils 200 Dimensionen durchführen ( doc2vec). Ich verwende dafür die TSNEImplementierung aus dem sklearn.manifoldModul und das Hauptproblem ist die zeitliche Komplexität. Trotzdem method = barnes_hutist die Rechengeschwindigkeit immer noch gering. Irgendwann geht ihm sogar der Speicher aus. Ich lasse …

18 python bigdata nlp scikit-learn dimensionality-reduction

1

NLP - warum ist "nicht" ein Stoppwort?

Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir jedoch "nicht" aus diesen Sätzen unten entfernen, verlieren sie die signifikante …

17 nlp topic-model sentiment-analysis

5

Bester praktischer Algorithmus für Satzähnlichkeit

Ich habe zwei Sätze, S1 und S2, die beide (normalerweise) eine Wortanzahl unter 15 haben. Was sind die praktischsten und erfolgreichsten (maschinelles Lernen) Algorithmen, die möglicherweise einfach zu implementieren sind (neuronales Netzwerk ist in Ordnung, es sei denn, die Architektur ist so kompliziert wie Google Inception usw.). Ich suche einen …

17 nlp clustering word2vec similarity

2

NLP - Ist Gazetteer ein Betrüger?

In NLP gibt es das Konzept, Gazetteerdas zum Erstellen von Anmerkungen sehr nützlich sein kann. So weit ich das verstehe: Ein Gazetteer besteht aus einer Reihe von Listen mit Namen von Entitäten wie Städten, Organisationen, Wochentagen usw. Diese Listen werden verwendet, um Vorkommen dieser Namen im Text zu finden, z. …

16 nlp named-entity-recognition

2

Extrahieren Sie die informativsten Textteile aus Dokumenten

Gibt es Artikel oder Diskussionen zum Extrahieren von Textteilen, die die meisten Informationen zum aktuellen Dokument enthalten? Zum Beispiel habe ich einen großen Bestand an Dokumenten aus derselben Domäne. Es gibt Textteile, die die wichtigsten Informationen enthalten, über die ein einzelnes Dokument spricht. Ich möchte einige dieser Teile extrahieren und …

16 nlp text-mining

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Was ist der Unterschied zwischen wortbasierten und zeichenbasierten Textgenerierungs-RNNs?

Beim Lesen über die Texterzeugung mit wiederkehrenden neuronalen Netzen ist mir aufgefallen, dass einige Beispiele implementiert wurden, um Text Wort für Wort und andere Zeichen für Zeichen zu erzeugen, ohne dass tatsächlich angegeben wurde, warum. Was ist also der Unterschied zwischen RNN-Modellen, die Text pro Wort und Text pro Zeichen …

15 machine-learning neural-network nlp rnn

5

Satzähnlichkeitsvorhersage

Ich möchte das folgende Problem lösen: Ich habe eine Reihe von Sätzen als Datensatz, und ich möchte in der Lage sein, einen neuen Satz einzugeben und den Satz zu finden, der dem neuen Satz im Datensatz am ähnlichsten ist. Ein Beispiel würde so aussehen: Neuer Satz: " I opened a …

15 python nlp scikit-learn similarity text

4

Ähnlichkeit zwischen zwei Wörtern

Ich suche eine Python-Bibliothek, mit der ich die Ähnlichkeit zwischen zwei Wörtern oder Sätzen erkennen kann. Ich werde eine Audio-zu-Text-Konvertierung durchführen, die zu einem englischen Wörterbuch oder einem anderen Wort als einem Wörterbuch führt (dies kann ein Name für eine Person oder eine Firma sein). Beispiel: 1) Text in Audio-Ergebnis: …

14 nlp nltk

2

Welche Funktionen werden im Allgemeinen von Parse-Bäumen beim Klassifizierungsprozess in NLP verwendet?

Ich untersuche verschiedene Arten von Analysebaumstrukturen. Die beiden weit verbreiteten Analysebaumstrukturen sind a) Wahlkreisbasierter Analysebaum und b) Abhängigkeitsbasierte Analysebaumstrukturen. Ich kann beide Arten von Analysebaumstrukturen mit dem Stanford NLP-Paket generieren. Ich bin mir jedoch nicht sicher, wie ich diese Baumstrukturen für meine Klassifizierungsaufgabe verwenden soll. Zum Beispiel: Wenn ich eine …

13 machine-learning nlp feature-selection feature-extraction

1

Was ist eine 1D Convolutional Layer im Deep Learning?

Ich verstehe die Rolle und den Mechanismus von Faltungsebenen in Deep Learning für die Bildverarbeitung bei 2D- oder 3D-Implementierungen allgemein - sie versuchen "einfach", 2D-Muster in Bildern zu erfassen (bei 3D in 3 Kanälen). Aber kürzlich bin ich im Kontext der Verarbeitung natürlicher Sprache auf 1D-Faltungsschichten gestoßen, was für mich …

13 deep-learning nlp convolution

4

Wie initialisiere ich ein neues word2vec-Modell mit vorab trainierten Modellgewichten?

Ich verwende die Gensim Library in Python, um das word2vector-Modell zu verwenden und zu trainieren. Kürzlich habe ich versucht, meine Modellgewichte mit einem vorab trainierten word2vec-Modell zu initialisieren, z. B. mit einem vorab trainierten Modell von GoogleNewDataset. Ich habe ein paar Wochen damit zu kämpfen. Ich habe gerade herausgefunden, dass …

13 python nlp word-embeddings word2vec gensim

1

Was ist der Haken bei LSTM?

Ich erweitere mein Wissen über das Keras-Paket und habe mit einigen der verfügbaren Modelle gearbeitet. Ich habe ein NLP-Binärklassifizierungsproblem, das ich zu lösen versuche, und wende verschiedene Modelle an. Nachdem ich mit einigen Ergebnissen gearbeitet und mehr und mehr über LSTM gelesen habe, scheint es, als ob dieser Ansatz allem …

12 neural-network nlp lstm recurrent-neural-net

4

Alternativen zu TF-IDF und Cosine Ähnlichkeit beim Vergleich von Dokumenten unterschiedlicher Formate

Ich habe an einem kleinen, persönlichen Projekt gearbeitet, das die beruflichen Fähigkeiten eines Benutzers aufgreift und basierend auf diesen Fähigkeiten die für ihn idealste Karriere vorschlägt. Ich benutze eine Datenbank mit Stellenangeboten, um dies zu erreichen. Im Moment funktioniert der Code wie folgt: 1) Verarbeiten Sie den Text jeder Stellenanzeige, …

12 nlp text-mining similarity cosine-distance

Als «nlp» getaggte Fragen