Meine Schüler tun dies als ihr Klassenprojekt. Einige Teams haben die 70% s für Genauigkeit erreicht, mit ziemlich kleinen Stichproben, was nicht schlecht ist.
Angenommen, Sie haben einige Daten wie diese:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Sie möchten die Rendite anhand des Textes vorhersagen.
Dies wird als Text Mining bezeichnet.
Was Sie letztendlich tun, ist eine enorme Matrix wie diese zu erstellen:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Das hat eine Spalte für jedes einzelne Wort und eine Zeile für jede Rückgabe und eine gewichtete Punktzahl für jedes Wort. Die Punktzahl ist häufig die TFIDF-Punktzahl oder die relative Häufigkeit des Wortes im Dokument.
Dann führen Sie eine Regression durch und prüfen, ob Sie vorhersagen können, welche Wörter die Rendite vorhersagen. Sie müssen wahrscheinlich zuerst PCA verwenden.
Buch: Grundlagen des Predictive Text Mining, Weiss
Software: RapidMiner mit Text Plugin oder R.
Sie sollten auch eine Suche in Google Scholar durchführen und sich über die Vor- und Nachteile informieren.
Sie können meine Serie von Text Mining-Videos hier sehen