Ich verbrachte drei Tage damit, mich mit tm
einem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X gibt es Probleme mit Java hinter Bibliotheken wie Snowball (stemming) oder Rgraphviz (graphs).
Könnte jemand Punkt aus nicht - Paketen - Ich habe betrachtet tm
, wordfish
und wordscores
, und weiß über NLTK - aber Forschung, wenn möglich mit dem Code, auf Textdaten, dass Anwendungen erfolgreich tm
oder etwas anderes zu Daten wie Parlamentsdebatten oder Legislativdokumente zu analysieren? Ich kann nicht viel zu diesem Thema finden und noch weniger Code, von dem ich lernen kann.
Mein eigenes Projekt ist eine zweimonatige parlamentarische Debatte. Diese Variablen sind in einer CSV-Datei enthalten: Parlamentssitzung, Sprecher, Fraktion, Text der mündlichen Intervention. Ich suche nach Unterschieden zwischen Sprechern und insbesondere zwischen Fraktionen bei der Verwendung seltener und weniger seltener Begriffe, z. B. "Sicherheitsgespräch" gegen "Bürgerrechtsgespräch".