Als «nlp» getaggte Fragen

Die Verarbeitung natürlicher Sprache (NLP) ist ein Bereich der Informatik, künstlichen Intelligenz und Linguistik, der sich mit den Interaktionen zwischen Computern und menschlichen (natürlichen) Sprachen befasst. Als solches ist NLP mit dem Bereich der Mensch-Computer-Interaktion verbunden. Viele Herausforderungen bei NLP betreffen das Verständnis natürlicher Sprachen, dh das Ermöglichen, dass Computer aus Eingaben von Menschen oder natürlichen Sprachen Bedeutung ableiten können, und andere betreffen die Erzeugung natürlicher Sprachen.

1
Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

3
Fuzzy-Name und Spitzname stimmen überein
Ich habe einen Datensatz mit folgender Struktur: full_name,nickname,match Christian Douglas,Chris,1, Jhon Stevens,Charlie,0, David Jr Simpson,Junior,1 Anastasia Williams,Stacie,1 Lara Williams,Ana,0 John Williams,Willy,1 Dabei ist jede Prädiktorzeile ein Paar, vollständiger Name, Spitzname und Zielvariable, Übereinstimmung. Dies ist 1, wenn der Spitzname der Person mit diesem Namen entspricht, andernfalls 0. Wie Sie sehen …

2
Wie erhalte ich die Anzahl der Silben in einem Wort?
Ich habe bereits durchgemacht diesen Beitrag die Anwendungen nltk‚s cmudictzum Zählen der Anzahl von Silben in einem Wort: from nltk.corpus import cmudict d = cmudict.dict() def nsyl(word): return [len(list(y for y in x if y[-1].isdigit())) for x in d[word.lower()]] Für Wörter außerhalb des cmu-Wörterbuchs wie z. B. Namen Rohitgibt es …
8 nlp 

1
Unter welchen Umständen ist Lemmatisierung kein ratsamer Schritt bei der Arbeit mit Textdaten?
Gibt es unter Berücksichtigung möglicher Rechenbeschränkungen allgemeine Anwendungen, bei denen die Lemmatisierung ein kontraproduktiver Schritt bei der Analyse von Textdaten wäre? Wäre Lemmatisierung beispielsweise etwas, das beim Erstellen eines kontextsensitiven Modells nicht durchgeführt wird? Als Referenz ist Lemmatisierung per dictinory.com der Vorgang des Gruppierens der gebogenen Formen von (einem Wort) …


1
Auf einem mehrsprachigen Stimmungskorpus
Ich möchte einen Stimmungskorpus für Nachrichtenartikel in mehreren Sprachen (~ 100.000 pro Sprache für ein Experiment zum maschinellen Lernen) zusammenstellen, in dem jeder Artikel als positiv, neutral oder negativ gekennzeichnet ist. Ich habe hoch und niedrig gesucht, konnte aber so etwas nicht finden. Ich habe bereits die Nachrichtenartikel in jeder …

1
Verständnis von naiven Bayes: Berechnung der bedingten Wahrscheinlichkeiten
Nehmen wir für eine Aufgabe zur Stimmungsanalyse an, wir haben einige Klassen, die durch und Merkmale .cccichichi Wir können die bedingte Wahrscheinlichkeit jeder Klasse wie : wobei jedes Merkmal darstellt und die Klasse ist wir haben. Dann können wir empirisch Unsere Prioritäten für jede Klasse sind dann gegeben durch: wobei:P.( …

6
NLP: Was sind einige beliebte Pakete für die Tokenisierung mit mehreren Wörtern?
Ich beabsichtige, eine Reihe von Stellenbeschreibungstexten zu kennzeichnen. Ich habe die Standard-Tokenisierung mit Leerzeichen als Trennzeichen versucht. Ich habe jedoch festgestellt, dass es einige Mehrwortausdrücke gibt, die durch Leerzeichen geteilt werden, was bei der nachfolgenden Verarbeitung zu Genauigkeitsproblemen führen kann. Deshalb möchte ich die interessantesten / informativsten Kollokationen in diesen …

3
Twitter-Stimmungsanalyse: Erkennen neutraler Tweets trotz Training nur für positive und negative Klassen
Ich bin ein Neuling, wenn es um maschinelles Lernen geht. Ich versuche, praktische Erfahrungen zu sammeln, indem ich verschiedene überwachte Lernalgorithmen mithilfe der Scikit-Learn-Bibliothek von Python analysiere. Ich verwende den sentiment140-Datensatz von 1,6 Millionen Tweets für die Stimmungsanalyse unter Verwendung verschiedener dieser Algorithmen. Ich weiß nicht, ob es eine dumme …


3
Vorlagen mit Parametern in Textfragmenten identifizieren
Ich habe einen Datensatz mit Textfragmenten mit einer festen Struktur, die Parameter enthalten kann. Beispiele sind: Temperature today is 20 centigrades Temperature today is 28 centigrades oder Her eyes are blue and hair black. Her eyes are green and hair brown. Das erste Beispiel zeigt eine Vorlage mit einem numerischen …

1
Umgang mit verschiedenen Textdaten
Ich arbeite derzeit mit einem Datensatz mit einer Vielzahl von Dokumentlängen - von einem einzelnen Wort bis zu einer ganzen Textseite. Darüber hinaus variieren die grammatikalische Struktur und die Verwendung von Interpunktion von Dokument zu Dokument erheblich. Ziel ist es, diese Dokumente in eine von etwa 10 bis 15 Kategorien …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.