Als «text-mining» getaggte Fragen

Bezieht sich auf eine Teilmenge des Data Mining, die sich mit dem Extrahieren von Informationen aus Daten in Form von Text durch Erkennen von Mustern befasst. Das Ziel von Text Mining besteht häufig darin, ein bestimmtes Dokument automatisch in eine von mehreren Kategorien einzuteilen und diese Leistung dynamisch zu verbessern, um es zu einem Beispiel für maschinelles Lernen zu machen. Ein Beispiel für diese Art von Text Mining sind Spamfilter, die für E-Mails verwendet werden.

1
Verwenden von von LDA generierten Themenwörtern zur Darstellung eines Dokuments
Ich möchte eine Dokumentklassifizierung durchführen, indem ich jedes Dokument als eine Reihe von Funktionen darstelle. Ich weiß, dass es viele Möglichkeiten gibt: BOW, TFIDF, ... Ich möchte Latent Dirichlet Allocation (LDA) verwenden, um die Themenschlüsselwörter von JEDEM EINZELNEN Dokument zu extrahieren. Das Dokument wird durch diese Themenwörter dargestellt. Ich weiß …

1
Klassifizierung von Gesprächen anhand von Inhalten
Ich möchte in der Lage sein, einen Klassifikator zu entwerfen, der zwischen verschiedenen Arten von Gesprächen unterscheiden kann (nicht unbedingt etwas über Stimmung, Aufrichtigkeit oder Ergebnis aussagen, das ist etwas zu weit hergeholt). Zu wissen, dass unter 50 Stichproben von Gesprächen 10 beide Parteien einbeziehen, die Informationen über ein zukünftiges …


2
Automatisierung der statistischen Korrelation zwischen „Texten“ und „Daten“
Ich sammle Textdaten zu Pressemitteilungen, Blog-Posts, Bewertungen usw. der Produkte und Leistungen bestimmter Unternehmen. Insbesondere möchte ich prüfen, ob es Korrelationen zwischen bestimmten Arten und / oder Quellen solcher "Textinhalte" mit den Marktbewertungen der Aktiensymbole der Unternehmen gibt. Solche offensichtlichen Korrelationen können vom menschlichen Verstand ziemlich schnell gefunden werden - …

4
Überprüfen Sie, ob eine Zeichenfolge nicht zufällig ist
Hintergrund Nehmen wir an, wir haben ein Alphabet von A,B, C, D, dann schauen wir uns einige Daten an und finden ein "Wort", bei dem DDDDDDDDCDDDDDDdie Wahrscheinlichkeit, diesen Zufall zu finden, für mich gering erscheint, während das Finden BABDCABCDACDBACDweniger zufällig erscheint. Frage Wie soll ich überprüfen, ob die Zeichenfolgen, auf …



1
Warum werden die meisten meiner Punkte mit DBSCAN als Rauschen eingestuft?
Ich verwende mehrere Clustering-Algorithmen von sklearn, um einige Daten zu clustern, und kann anscheinend nicht herausfinden, was mit DBSCAN passiert. Meine Daten sind eine Dokument-Term-Matrix von TfidfVectorizer mit einigen hundert vorverarbeiteten Dokumenten. Code: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = DBSCAN(eps=eps, min_samples=min_samples) result = db.fit_predict(data) svd = TruncatedSVD(n_components=2).fit_transform(data) …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.