Als «text-mining» getaggte Fragen

Bezieht sich auf eine Teilmenge des Data Mining, die sich mit dem Extrahieren von Informationen aus Daten in Form von Text durch Erkennen von Mustern befasst. Das Ziel von Text Mining besteht häufig darin, ein bestimmtes Dokument automatisch in eine von mehreren Kategorien einzuteilen und diese Leistung dynamisch zu verbessern, um es zu einem Beispiel für maschinelles Lernen zu machen. Ein Beispiel für diese Art von Text Mining sind Spamfilter, die für E-Mails verwendet werden.

2
Warum wird bei der Textsprachenidentifikation n-Gramm anstelle von Wörtern verwendet?
In zwei weit verbreiteten Spracherkennungsbibliotheken, Compact Language Detector 2 für C ++ und Language Detector für Java, verwendeten beide (zeichenbasierte) n-Gramme, um Textfunktionen zu extrahieren. Warum wird ein Wortsack (einzelnes Wort / Wörterbuch) nicht verwendet, und was sind die Vor- und Nachteile von Wortsack und n-Gramm? Was sind auch einige …


5
Gute Bücher zum Thema Text Mining?
Hallo, ich wollte wissen, ob es einige gute Bücher zum Thema Text Mining und Klassifizierung mit einigen Fallstudien gibt. Wenn nicht, würden einige öffentlich zugängliche Papiere / Zeitschriften ausreichen. Wenn sie ihre Beispiele mit R noch besser veranschaulichen. Ich suche kein schrittweises Handbuch, sondern etwas, das die Vor- und Nachteile …


1
Inkrementelle IDF (Inverse Document Frequency)
In einer Text Mining-Anwendung besteht ein einfacher Ansatz darin, die Heuristik zu verwenden, um Vektoren als kompakte, spärliche Darstellungen der Dokumente zu erstellen. Dies ist in Ordnung für die Batch-Einstellung, bei der der gesamte Korpus a priori bekannt ist, da der i d f den gesamten Korpus benötigttf−idftf−idftf-idfidfidfidf idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) …

1
Grundlegendes zur Verwendung von Logarithmen im TF-IDF-Logarithmus
Ich habe gelesen: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Aber ich kann nicht genau verstehen, warum die Formel so konstruiert wurde, wie sie ist. Was ich tue Verstehe: iDF sollte auf einer bestimmten Ebene messen, wie häufig ein Begriff S in jedem der Dokumente vorkommt, wobei der Wert abnimmt, wenn der Begriff häufiger vorkommt. Aus …

3
In Bezug auf die Verwendung des Bigram-Modells (N-Gramm) zum Erstellen eines Merkmalsvektors für ein Textdokument
Ein traditioneller Ansatz der Feature-Konstruktion für das Text-Mining ist der Bag-of-Word-Ansatz und kann mithilfe von tf-idf zum Einrichten des Feature-Vektors, der ein bestimmtes Textdokument charakterisiert, erweitert werden. Gegenwärtig versuche ich, ein Bi-Gramm-Sprachmodell oder (N-Gramm) zum Erstellen eines Merkmalsvektors zu verwenden, weiß aber nicht genau, wie das geht? Können wir einfach …

1
Ist diese Interpretation der Sparsity korrekt?
Laut der Dokumentation der removeSparseTermsFunktion aus dem tmPaket bedeutet dies Sparsamkeit: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor …

1
Warum eine in umgekehrte Dokumenthäufigkeit hinzufügen?
Mein Lehrbuch listet die IDF als wol o g( 1 + N.nt)log(1+Nnt)log(1+\frac{N}{n_t}) : Anzahl der DokumenteN.NN : Anzahl der Dokumente, die den Begriff t enthaltenntntn_tttt Wikipedia listet diese Formel als eine geglättete Version des aktuellen . Das verstehe ich: es reicht vonlog(N.log(Nnt)log(Nnt)log(\frac{N}{n_t})bis∞,was intuitiv erscheint. Aberlog(1+N.log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftygeht vonlog(1+1)nach∞,was so seltsam erscheint ... …


1
Verwendung von Text Mining / Tools zur Verarbeitung natürlicher Sprache für die Ökonometrie
Ich bin mir nicht sicher, ob diese Frage hier völlig angemessen ist. Wenn nicht, bitte löschen. Ich bin ein Student der Wirtschaftswissenschaften. Für ein Projekt, das Probleme in der Sozialversicherung untersucht, habe ich Zugang zu einer großen Anzahl von administrativen Fallberichten (> 200.000), die sich mit Eignungsbewertungen befassen. Diese Berichte …

1
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Stimmungsanalyse verstehen und anwenden
Mir wurde gerade ein Projekt zur Durchführung von Stimmungsanalysen für einige Dokumentensammlungen zugewiesen. Durch Googeln ist eine Menge sentimentaler Forschung aufgetaucht. Meine Fragen sind: Was sind die wichtigsten Methoden / Algorithmen für die Stimmungsanalyse im Bereich des maschinellen Lernens und der statistischen Analyse? Gibt es gut etablierte Ergebnisse? Gibt es …

4
Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?
Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.