Automatisierung der statistischen Korrelation zwischen „Texten“ und „Daten“


8

Ich sammle Textdaten zu Pressemitteilungen, Blog-Posts, Bewertungen usw. der Produkte und Leistungen bestimmter Unternehmen.

Insbesondere möchte ich prüfen, ob es Korrelationen zwischen bestimmten Arten und / oder Quellen solcher "Textinhalte" mit den Marktbewertungen der Aktiensymbole der Unternehmen gibt.

Solche offensichtlichen Korrelationen können vom menschlichen Verstand ziemlich schnell gefunden werden - aber das ist nicht skalierbar. Wie kann ich eine solche Analyse unterschiedlicher Quellen automatisieren?


Was meinst du mit Arten von "Text" -Inhalten?
Ami

Könnten Sie einige Beispieldaten zeigen?

@Srikant Vadali - Beispieldaten können Pressemitteilungen, Nachrichten usw. sein. Die Textdaten sind Freiformdaten, die wahrscheinlich aus RSS-Feeds oder ähnlichem stammen. Marktdaten für ein bestimmtes Unternehmen sind das, was ich analysieren / korrelieren möchte. Vielleicht schreibt Blogger Bill eine Geschichte über eine bevorstehende Veröffentlichung von VMware-Funktionen, und VMW springt um 10%. (Vereinfacht, ich weiß)
Warren

Antworten:


5

Meine Schüler tun dies als ihr Klassenprojekt. Einige Teams haben die 70% s für Genauigkeit erreicht, mit ziemlich kleinen Stichproben, was nicht schlecht ist.

Angenommen, Sie haben einige Daten wie diese:

Return Symbol News Text
-4%  DELL   Centegra and Dell Services recognized with Outsourcing Center's...
7%   MSFT   Rising Service Revenues Benefit VMWare
1%   CSCO   Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4%   GOOG   Summary Box: Google eyes more government deals
7%   AAPL   Sohu says 2nd-quarter net income rises 10 percent on higher...

Sie möchten die Rendite anhand des Textes vorhersagen.

Dies wird als Text Mining bezeichnet.

Was Sie letztendlich tun, ist eine enorme Matrix wie diese zu erstellen:

Return Centegra Rising Services Recognized...
-4%    0.23     0      0.11     0.34
7%     0        0.1    0.23     0
...

Das hat eine Spalte für jedes einzelne Wort und eine Zeile für jede Rückgabe und eine gewichtete Punktzahl für jedes Wort. Die Punktzahl ist häufig die TFIDF-Punktzahl oder die relative Häufigkeit des Wortes im Dokument.

Dann führen Sie eine Regression durch und prüfen, ob Sie vorhersagen können, welche Wörter die Rendite vorhersagen. Sie müssen wahrscheinlich zuerst PCA verwenden.

Buch: Grundlagen des Predictive Text Mining, Weiss

Software: RapidMiner mit Text Plugin oder R.

Sie sollten auch eine Suche in Google Scholar durchführen und sich über die Vor- und Nachteile informieren.

Sie können meine Serie von Text Mining-Videos hier sehen


das sieht nach einem wirklich vielversprechenden Start aus :)
Warren

1

Wie oben beschrieben, benötigen Sie eine Reihe von Artikeln und Antworten, und dann trainieren Sie z. ein neuronales Netz für sie. Mit RapidMiner können Sie dies tun, aber es gibt viele andere Tools, mit denen Sie Regressionen dieser Größe durchführen können. Im Idealfall ist Ihre Antwortvariable konsistent (dh% Änderung nach genau 1 Stunde oder% Änderung nach genau 1 Tag usw.).

Möglicherweise möchten Sie auch eine Art Filterung oder Klassifizierung auf Ihre Trainingsvariablen anwenden, dh auf die Wörter im Artikel. Dies kann so einfach sein wie das Filtern einiger Wörter (z. B. Präpositionen, Pronomen) oder komplexer wie das Verwenden der Syntax, um auszuwählen, welche Wörter in die Regression aufgenommen werden sollen. Beachten Sie, dass jede Filterung das Ergebnis beeinflussen kann.

Einige Leute an der Universität von Arizona haben bereits ein System entwickelt, das dies tut - ihr Artikel ist hier auf acm und Sie finden es vielleicht interessant. http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2 (Sie benötigen ein Abonnement, um darauf zugreifen zu können, wenn Sie nicht zB an einer Universität sind). Die Referenzen können Ihnen auch dabei helfen, die richtige Richtung einzuschlagen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.