Als «text-mining» getaggte Fragen

Bezieht sich auf eine Teilmenge des Data Mining, die sich mit dem Extrahieren von Informationen aus Daten in Form von Text durch Erkennen von Mustern befasst. Das Ziel von Text Mining besteht häufig darin, ein bestimmtes Dokument automatisch in eine von mehreren Kategorien einzuteilen und diese Leistung dynamisch zu verbessern, um es zu einem Beispiel für maschinelles Lernen zu machen. Ein Beispiel für diese Art von Text Mining sind Spamfilter, die für E-Mails verwendet werden.


5
Textklassifizierung in großem Maßstab
Ich möchte meine Textdaten klassifizieren. Ich habe 300 classes200 Schulungsunterlagen pro Klasse (so 60000 documents in total) und dies wird wahrscheinlich zu sehr hohen Maßangaben führen (wir suchen möglicherweise nach mehr als 1 Million Dimensionen ). Ich möchte die folgenden Schritte in der Pipeline ausführen (um Ihnen einen Eindruck von …

1
Ich möchte einen Kriminalitätsindex und einen politischen Instabilitätsindex aufbauen, die auf Nachrichten basieren
Ich habe dieses Nebenprojekt, bei dem ich die lokalen Nachrichten-Websites in meinem Land crawle und einen Kriminalitätsindex und einen Index für politische Instabilität erstellen möchte. Ich habe bereits den Informationsabrufteil des Projekts behandelt. Mein Plan ist zu tun: Unbeaufsichtigte Themenextraktion. Nahezu doppelte Erkennung. Beaufsichtigte Einstufung und Ereignisstufe (Kriminalität / politisch …

1
Die Eingabeparameter für die Verwendung der latenten Dirichlet-Zuordnung
Bei Verwendung der Themenmodellierung (Latent Dirichlet Allocation) ist die Anzahl der Themen ein Eingabeparameter, den der Benutzer angeben muss. Ich denke, wir sollten auch eine Sammlung von Kandidatenthemensätzen bereitstellen, mit denen der Dirichlet-Prozess verglichen werden muss. Ist mein Verständnis korrekt? Wie kann man in der Praxis ein solches Kandidatenthemaset einrichten?

2
Warum funktioniert der Ridge-Regressionsklassifikator für die Textklassifizierung recht gut?
Während eines Experiments zur Textklassifizierung habe ich Ergebnisse gefunden, die die Tests unter den Klassifizierern, die häufiger erwähnt und für Text-Mining-Aufgaben wie SVM, NB, kNN usw. angewendet werden, ständig übertreffen zur Optimierung jedes Klassifikators für diese spezielle Textklassifizierungsaufgabe, mit Ausnahme einiger einfacher Änderungen an den Parametern. Ein solches Ergebnis wurde …

1
Themenvorhersage mit latenter Dirichlet-Zuordnung
Ich habe LDA für ein Korpus von Dokumenten verwendet und einige Themen gefunden. Die Ausgabe meines Codes besteht aus zwei Matrizen, die Wahrscheinlichkeiten enthalten. Wahrscheinlichkeiten für ein Dokumentthema und die Wahrscheinlichkeiten für das andere Wortthema. Aber ich weiß nicht, wie ich diese Ergebnisse verwenden soll, um das Thema eines neuen …

2
Wann kombinieren wir Dimensionsreduktion mit Clustering?
Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis) angewendet, um die U, S, Vt-Matrizen zu erhalten, eine geeignete Schwelle unter Verwendung des Geröllplots ausgewählt und Clusterbildung …


4
Text Mining: Wie gruppiert man Texte (zB Nachrichtenartikel) mit künstlicher Intelligenz?
Ich habe einige neuronale Netze (MLP (vollständig verbunden), Elman (wiederkehrend)) für verschiedene Aufgaben aufgebaut, z. B. zum Spielen von Pong, zum Klassifizieren handgeschriebener Ziffern und anderer Dinge ... Zusätzlich habe ich versucht, einige erste Faltungs-Neuronale Netze aufzubauen, z. B. zum Klassifizieren von mehrstelligen handschriftlichen Notizen, aber ich bin völlig neu …



3
Themenmodelle für kurze Dokumente
Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten …

2
Beispiele für Text Mining mit R (TM-Paket)
Ich verbrachte drei Tage damit, mich mit tmeinem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X gibt es Probleme mit Java hinter Bibliotheken wie Snowball …
14 r  text-mining 

2
Ab welchem ​​n werden n-Gramm kontraproduktiv?
Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm). Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette …

1
Automatische Keyword-Extraktion: Verwenden von Cosinus-Ähnlichkeiten als Features
Ich habe eine Dokument-Term-Matrix und möchte jetzt mit einer überwachten Lernmethode (SVM, Naive Bayes, ...) Schlüsselwörter für jedes Dokument extrahieren. In diesem Modell verwende ich bereits Tf-idf, Pos-Tag, ...MMM Aber jetzt wundere ich mich über die Zusammenhänge. Ich habe eine Matrix mit den Kosinusähnlichkeiten zwischen den Begriffen.CCC Gibt es eine …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.