Gute Bücher zum Thema Text Mining?


11

Hallo, ich wollte wissen, ob es einige gute Bücher zum Thema Text Mining und Klassifizierung mit einigen Fallstudien gibt. Wenn nicht, würden einige öffentlich zugängliche Papiere / Zeitschriften ausreichen. Wenn sie ihre Beispiele mit R noch besser veranschaulichen. Ich suche kein schrittweises Handbuch, sondern etwas, das die Vor- und Nachteile verschiedener Text-Mining-Ansätze für verschiedene Problemklassen veranschaulicht.

Antworten:


5

Lesen Sie http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Datenintensive Textverarbeitung mit MapReduce - dieses Buch ist ziemlich akademisch, behandelt jedoch eine Reihe häufig verwendeter Textverarbeitungstechniken und wie sie pararralliert werden können über großen Datensatz mit Karte reduzieren.

www.rtexttools.com Dies ist ein ausgezeichnetes R-Paket, mit dem Sie eine Vielzahl von Klassifizierungsalgorithmen (einschließlich einiger Ensemble-Methoden) auf die Textanalyse anwenden können. und


4
Würde es Ihnen etwas ausmachen, eine kurze Zusammenfassung der einzelnen Links bereitzustellen, um diese Antwort in sich geschlossen zu halten?
Chl

4

Ich habe kürzlich vier Bücher in diesem Bereich gelesen:

Feldman, R. und James Sanger, J. (2006). Das Text Mining-Handbuch: Erweiterte Ansätze zur Analyse unstrukturierter Daten. Cambridge University Press.

Dieser konzentriert sich auf praktische Beispiele, Software und angewandtes Text Mining. Es enthält mehrere Beispiele für die praktische Verwendung von Text-Mining. Es könnte von Interesse sein, wenn Sie mehr über kommerzielle Anwendungen von Text-Mining-Tools erfahren möchten.

Srivastava, AN und Sahami, M. (2009). Text Mining: Klassifizierung, Clustering und Anwendungen. Chapman & Hall / CRC.

Es handelt sich um eine Reihe von Forschungsarbeiten, die als Beispiele für die Verwendung verschiedener Text-Mining-Tools verwendet werden. Es ist eher zu fokussiert als für den Einführungstest.

Weiss, SM, Indurkhya, N., Zhang, T. und Damerau, F. (2005). Text Mining: Vorhersagemethoden zur Analyse unstrukturierter Informationen. Springer.

Sehr einführender Text, der einige allgemeine Probleme beschreibt.

Manning, C. (1999). Grundlagen der statistischen Verarbeitung natürlicher Sprache. MIT Press.

Dies ist das beste Buch, das ich bereits zu diesem Thema gelesen habe. Es ist gut geschrieben, klar, geht tiefer in die Theorie ein, aber auf praxisfreundliche Weise. Beginnt mit einer allgemeinen Einführung, geht dann aber auf einige der am häufigsten verwendeten Methoden und Algorithmen ein. Wenn Sie nur ein einziges Buch auswählen müssten, würde ich dieses empfehlen.

Sie können auch leicht mehrere Bücher über die Verarbeitung natürlicher Sprache und Text Mining finden, die sich auf die Verwendung von R ( tm library) oder Python ( nltk library) konzentrieren.


2

Dies ist möglicherweise nicht genau das Richtige für das, wonach Sie suchen, aber das Beherrschen regulärer Ausdrücke von Jeffrey Friedl ist eine großartige Quelle, um zu lernen, wie man reguläre Ausdrücke zum Parsen von Text verwendet. Er geht nicht auf Modellierungstechniken ein, aber angesichts der Anzahl der regulären Ausdrücke können Sie eine Vielzahl von Standardmodellierungsansätzen anwenden.


2

Ein Buch, auf das ich immer wieder zurückgreife, ist Text Mining: Predictive Methods ... von Sholom Weiss. Es gibt viele Ideen für die Lösung von Problemen, die ich nützlich finde, da es beim Text Mining manchmal darum geht, verschiedene Dinge auszuprobieren - globales oder lokales Wörterbuch, Anzahl der zu behaltenden Funktionen usw. Ich finde, dass dieses Buch ein guter Ideengeber ist. Es hat auch Fallstudien.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.