Als «text-mining» getaggte Fragen

Bezieht sich auf eine Teilmenge des Data Mining, die sich mit dem Extrahieren von Informationen aus Daten in Form von Text durch Erkennen von Mustern befasst. Das Ziel von Text Mining besteht häufig darin, ein bestimmtes Dokument automatisch in eine von mehreren Kategorien einzuteilen und diese Leistung dynamisch zu verbessern, um es zu einem Beispiel für maschinelles Lernen zu machen. Ein Beispiel für diese Art von Text Mining sind Spamfilter, die für E-Mails verwendet werden.


1
Wie viele Trainingsdaten benötigt word2vec?
Ich möchte den Unterschied zwischen demselben Wort vergleichen, das in verschiedenen Quellen erwähnt wird. Das heißt, wie sich Autoren in der Verwendung von schlecht definierten Wörtern wie "Demokratie" unterscheiden. Ein kurzer Plan war Nehmen Sie die Bücher, in denen der Begriff "Demokratie" als Klartext erwähnt wird In jedem Buch, ersetzen …

3

2
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
Welche Techniken für maschinelles / tiefes Lernen / nlp werden verwendet, um ein bestimmtes Wort als Name, Handynummer, Adresse, E-Mail, Bundesstaat, Landkreis, Stadt usw. zu klassifizieren?
Ich versuche, ein intelligentes Modell zu generieren, das eine Reihe von Wörtern oder Zeichenfolgen scannen und mithilfe von maschinellem Lernen oder Deep Learning als Namen, Handynummern, Adressen, Städte, Bundesstaaten, Länder und andere Einheiten klassifizieren kann. Ich hatte nach Ansätzen gesucht, aber leider keinen Ansatz gefunden. Ich hatte versucht, mit einer …

4
Schlagen Sie Trainingsdatensätze für Textklassifizierer vor
Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren? Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer …

5
Clustering mit Kosinusähnlichkeit
Ich habe einen großen Datensatz und eine Kosinusähnlichkeit zwischen ihnen. Ich möchte sie mit Cosinus-Ähnlichkeit gruppieren, die ähnliche Objekte zusammenfügt, ohne vorher die Anzahl der erwarteten Cluster angeben zu müssen. Ich habe die sklearn-Dokumentation von DBSCAN und Affinity Propagation gelesen, in der beide eine Distanzmatrix (keine Kosinus-Ähnlichkeitsmatrix) benötigen. Wirklich, ich …

3
Wie wird das Textclustering bewertet?
Welche Metriken können zur Bewertung von Textclustering-Modellen verwendet werden? Ich habe tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ verwendet hierarchical clustering (metric is cosine similarity). Wie kann man entscheiden, welches Modell das beste ist?

4
Klassifizieren von E-Mails in R.
Ich arbeite an einem Projekt in R, in dem ich ungefähr 1200 E-Mails von einem Unternehmen habe, von denen die meisten als Klasse 1 oder Klasse 2 gekennzeichnet sind. Dies sind die Arten von Anfragen. Ungefähr 1000 E-Mails sind mit Klasse und 200 mit Klasse Mein Ziel ist es, mithilfe …

4
Wie lerne ich die Erkennung von Spam-E-Mails?
Ich möchte erfahren, wie ein Spam-E-Mail-Detektor funktioniert. Ich versuche nicht, ein kommerzielles Produkt zu bauen, es wird eine ernsthafte Lernübung für mich sein. Daher suche ich nach Ressourcen wie vorhandenen Projekten, Quellcode, Artikeln, Artikeln usw., denen ich folgen kann. Ich möchte anhand von Beispielen lernen, ich glaube nicht, dass ich …

1
Welche Klassifizierungsalgorithmen sollten Sie versuchen, um Textdaten in 300 Kategorien zu klassifizieren?
Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige …

1
R Fehler mit Paket tm (Text-Mining)
Ich versuche, das tm-Paket zu verwenden, um einen Vektor von Textzeichenfolgen in ein Korpuselement zu konvertieren. Mein Code sieht ungefähr so ​​aus Corpus(d1$Yes) Dabei d1$Yeshandelt es sich um einen Faktor mit 124 Ebenen, die jeweils eine Textzeichenfolge enthalten. Zum Beispiel, d1$Yes[246] = "So we can get the boat out!" Ich …
8 r  text-mining 



3
Wie kann man Cluster schön plotten?
Ich habe einen großen Textdatensatz geclustert. Jeder Cluster wird durch einen Schwerpunkt der dazugehörigen vektorisierten Texte, die Anzahl der Texte, das Erstellungsdatum und andere Parameter dargestellt. Ich kann die Cluster nicht in einem n-dimensionalen Raum darstellen. Welche Möglichkeiten habe ich?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.