Als «text-mining» getaggte Fragen

Bezieht sich auf eine Teilmenge des Data Mining, die sich mit dem Extrahieren von Informationen aus Daten in Form von Text durch Erkennen von Mustern befasst. Das Ziel von Text Mining besteht häufig darin, ein bestimmtes Dokument automatisch in eine von mehreren Kategorien einzuteilen und diese Leistung dynamisch zu verbessern, um es zu einem Beispiel für maschinelles Lernen zu machen. Ein Beispiel für diese Art von Text Mining sind Spamfilter, die für E-Mails verwendet werden.

3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Wie funktioniert die Keras-Einbettungsebene?
Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) was die folgende Ausgabe …

6
Wie kann man quasi zwei Vektoren von Strings (in R) zuordnen?
Ich bin mir nicht sicher, wie dies bezeichnet werden soll. Bitte korrigieren Sie mich, wenn Sie einen besseren Begriff kennen. Ich habe zwei Listen. Eines von 55 Elementen (z. B. ein Vektor von Zeichenfolgen), das andere von 92. Die Elementnamen sind ähnlich, aber nicht identisch. Ich wünsche den besten Kandidaten …
36 r  text-mining 

6
Statistische Klassifizierung von Texten
Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …

4
Maschinelles Lernen zum Parsen von Strings?
Ich habe viele Adresszeichenfolgen: 1600 Pennsylvania Ave, Washington, DC 20500 USA Ich möchte sie in ihre Bestandteile zerlegen: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Aber natürlich sind die Daten schmutzig: Sie stammen aus vielen Ländern in vielen Sprachen, sind unterschiedlich geschrieben, enthalten Rechtschreibfehler, fehlen, …




1
Ist die Kreuzvalidierung ein geeigneter Ersatz für das Validierungsset?
In der Textklassifikation habe ich ein Trainingsset mit ca. 800 Samples und ein Testset mit ca. 150 Samples. Das Test-Set wurde noch nie verwendet und wartet darauf, bis zum Ende verwendet zu werden. Ich verwende das gesamte 800-Muster-Trainingsset mit 10-facher Kreuzvalidierung, während ich Klassifikatoren und Funktionen abstimme und optimiere. Dies …

7
Warum sollte man sich in Naive Bayes mit Laplace-Glättung beschäftigen, wenn das Testset unbekannte Wörter enthält?
Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung : Verweisen Sie mit ccc auf eine Klasse (z. B. Positiv oder Negativ) und mit www auf ein Token oder Wort. Der Maximum - Likelihood - Schätzer für P(w|c)P(w|c)P(w|c) ist count(w,c)count(c)=counts w …


2
Bag-of-Words für die Textklassifizierung: Warum nicht einfach Worthäufigkeiten anstelle von TFIDF verwenden?
Ein üblicher Ansatz zur Klassifizierung von Texten besteht darin, einen Klassifikator aus einem Wortsack zu schulen. Der Benutzer nimmt den zu klassifizierenden Text und zählt die Häufigkeit der Wörter in jedem Objekt, gefolgt von einer Art Beschnitt, um die resultierende Matrix in einer überschaubaren Größe zu halten. Oft sehe ich …

1
Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?
Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …

3
Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung
Letzte Bearbeitung mit allen Ressourcen aktualisiert: Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an. Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten. Tore: Wenden Sie eine halbüberwachte Klassifizierung an Wenden Sie einen halbüberwachten Etikettierungsprozess an (bekannt als aktives Lernen). Ich habe viele Informationen aus …

2
Warum fällt die Verarbeitung natürlicher Sprachen nicht in den Bereich des maschinellen Lernens? [geschlossen]
Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden …


5
Textklassifizierung in großem Maßstab
Ich möchte meine Textdaten klassifizieren. Ich habe 300 classes200 Schulungsunterlagen pro Klasse (so 60000 documents in total) und dies wird wahrscheinlich zu sehr hohen Maßangaben führen (wir suchen möglicherweise nach mehr als 1 Million Dimensionen ). Ich möchte die folgenden Schritte in der Pipeline ausführen (um Ihnen einen Eindruck von …

1
Ich möchte einen Kriminalitätsindex und einen politischen Instabilitätsindex aufbauen, die auf Nachrichten basieren
Ich habe dieses Nebenprojekt, bei dem ich die lokalen Nachrichten-Websites in meinem Land crawle und einen Kriminalitätsindex und einen Index für politische Instabilität erstellen möchte. Ich habe bereits den Informationsabrufteil des Projekts behandelt. Mein Plan ist zu tun: Unbeaufsichtigte Themenextraktion. Nahezu doppelte Erkennung. Beaufsichtigte Einstufung und Ereignisstufe (Kriminalität / politisch …

1
Die Eingabeparameter für die Verwendung der latenten Dirichlet-Zuordnung
Bei Verwendung der Themenmodellierung (Latent Dirichlet Allocation) ist die Anzahl der Themen ein Eingabeparameter, den der Benutzer angeben muss. Ich denke, wir sollten auch eine Sammlung von Kandidatenthemensätzen bereitstellen, mit denen der Dirichlet-Prozess verglichen werden muss. Ist mein Verständnis korrekt? Wie kann man in der Praxis ein solches Kandidatenthemaset einrichten?

2
Warum funktioniert der Ridge-Regressionsklassifikator für die Textklassifizierung recht gut?
Während eines Experiments zur Textklassifizierung habe ich Ergebnisse gefunden, die die Tests unter den Klassifizierern, die häufiger erwähnt und für Text-Mining-Aufgaben wie SVM, NB, kNN usw. angewendet werden, ständig übertreffen zur Optimierung jedes Klassifikators für diese spezielle Textklassifizierungsaufgabe, mit Ausnahme einiger einfacher Änderungen an den Parametern. Ein solches Ergebnis wurde …

1
Themenvorhersage mit latenter Dirichlet-Zuordnung
Ich habe LDA für ein Korpus von Dokumenten verwendet und einige Themen gefunden. Die Ausgabe meines Codes besteht aus zwei Matrizen, die Wahrscheinlichkeiten enthalten. Wahrscheinlichkeiten für ein Dokumentthema und die Wahrscheinlichkeiten für das andere Wortthema. Aber ich weiß nicht, wie ich diese Ergebnisse verwenden soll, um das Thema eines neuen …

2
Wann kombinieren wir Dimensionsreduktion mit Clustering?
Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis) angewendet, um die U, S, Vt-Matrizen zu erhalten, eine geeignete Schwelle unter Verwendung des Geröllplots ausgewählt und Clusterbildung …


4
Text Mining: Wie gruppiert man Texte (zB Nachrichtenartikel) mit künstlicher Intelligenz?
Ich habe einige neuronale Netze (MLP (vollständig verbunden), Elman (wiederkehrend)) für verschiedene Aufgaben aufgebaut, z. B. zum Spielen von Pong, zum Klassifizieren handgeschriebener Ziffern und anderer Dinge ... Zusätzlich habe ich versucht, einige erste Faltungs-Neuronale Netze aufzubauen, z. B. zum Klassifizieren von mehrstelligen handschriftlichen Notizen, aber ich bin völlig neu …



3
Themenmodelle für kurze Dokumente
Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten …

2
Beispiele für Text Mining mit R (TM-Paket)
Ich verbrachte drei Tage damit, mich mit tmeinem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X gibt es Probleme mit Java hinter Bibliotheken wie Snowball …
14 r  text-mining 

2
Ab welchem ​​n werden n-Gramm kontraproduktiv?
Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm). Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette …

1
Automatische Keyword-Extraktion: Verwenden von Cosinus-Ähnlichkeiten als Features
Ich habe eine Dokument-Term-Matrix und möchte jetzt mit einer überwachten Lernmethode (SVM, Naive Bayes, ...) Schlüsselwörter für jedes Dokument extrahieren. In diesem Modell verwende ich bereits Tf-idf, Pos-Tag, ...MMM Aber jetzt wundere ich mich über die Zusammenhänge. Ich habe eine Matrix mit den Kosinusähnlichkeiten zwischen den Begriffen.CCC Gibt es eine …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.