Als «text-mining» getaggte Fragen

Bezieht sich auf eine Teilmenge des Data Mining, die sich mit dem Extrahieren von Informationen aus Daten in Form von Text durch Erkennen von Mustern befasst. Das Ziel von Text Mining besteht häufig darin, ein bestimmtes Dokument automatisch in eine von mehreren Kategorien einzuteilen und diese Leistung dynamisch zu verbessern, um es zu einem Beispiel für maschinelles Lernen zu machen. Ein Beispiel für diese Art von Text Mining sind Spamfilter, die für E-Mails verwendet werden.

3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Wie funktioniert die Keras-Einbettungsebene?
Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) was die folgende Ausgabe …

6
Wie kann man quasi zwei Vektoren von Strings (in R) zuordnen?
Ich bin mir nicht sicher, wie dies bezeichnet werden soll. Bitte korrigieren Sie mich, wenn Sie einen besseren Begriff kennen. Ich habe zwei Listen. Eines von 55 Elementen (z. B. ein Vektor von Zeichenfolgen), das andere von 92. Die Elementnamen sind ähnlich, aber nicht identisch. Ich wünsche den besten Kandidaten …
36 r  text-mining 

6
Statistische Klassifizierung von Texten
Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …

4
Maschinelles Lernen zum Parsen von Strings?
Ich habe viele Adresszeichenfolgen: 1600 Pennsylvania Ave, Washington, DC 20500 USA Ich möchte sie in ihre Bestandteile zerlegen: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Aber natürlich sind die Daten schmutzig: Sie stammen aus vielen Ländern in vielen Sprachen, sind unterschiedlich geschrieben, enthalten Rechtschreibfehler, fehlen, …




1
Ist die Kreuzvalidierung ein geeigneter Ersatz für das Validierungsset?
In der Textklassifikation habe ich ein Trainingsset mit ca. 800 Samples und ein Testset mit ca. 150 Samples. Das Test-Set wurde noch nie verwendet und wartet darauf, bis zum Ende verwendet zu werden. Ich verwende das gesamte 800-Muster-Trainingsset mit 10-facher Kreuzvalidierung, während ich Klassifikatoren und Funktionen abstimme und optimiere. Dies …

7
Warum sollte man sich in Naive Bayes mit Laplace-Glättung beschäftigen, wenn das Testset unbekannte Wörter enthält?
Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung : Verweisen Sie mit ccc auf eine Klasse (z. B. Positiv oder Negativ) und mit www auf ein Token oder Wort. Der Maximum - Likelihood - Schätzer für P(w|c)P(w|c)P(w|c) ist count(w,c)count(c)=counts w …


2
Bag-of-Words für die Textklassifizierung: Warum nicht einfach Worthäufigkeiten anstelle von TFIDF verwenden?
Ein üblicher Ansatz zur Klassifizierung von Texten besteht darin, einen Klassifikator aus einem Wortsack zu schulen. Der Benutzer nimmt den zu klassifizierenden Text und zählt die Häufigkeit der Wörter in jedem Objekt, gefolgt von einer Art Beschnitt, um die resultierende Matrix in einer überschaubaren Größe zu halten. Oft sehe ich …

1
Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?
Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …

3
Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung
Letzte Bearbeitung mit allen Ressourcen aktualisiert: Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an. Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten. Tore: Wenden Sie eine halbüberwachte Klassifizierung an Wenden Sie einen halbüberwachten Etikettierungsprozess an (bekannt als aktives Lernen). Ich habe viele Informationen aus …

2
Warum fällt die Verarbeitung natürlicher Sprachen nicht in den Bereich des maschinellen Lernens? [geschlossen]
Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.