Ich möchte einen Stimmungskorpus für Nachrichtenartikel in mehreren Sprachen (~ 100.000 pro Sprache für ein Experiment zum maschinellen Lernen) zusammenstellen, in dem jeder Artikel als positiv, neutral oder negativ gekennzeichnet ist. Ich habe hoch und niedrig gesucht, konnte aber so etwas nicht finden. Ich habe bereits die Nachrichtenartikel in jeder Sprache.
Meine Frage an die Community lautet: Wie würden Sie dies so genau wie möglich erreichen?
Ich habe mir zuerst Mechanical Turk angesehen , wo Sie Leute einstellen können, die jeden Artikel manuell für Sie beschriften. Und dies ist vielleicht der beste Weg, aber teuer .
Als nächstes dachte ich an all die vorhandenen populären Bibliotheken (von denen einige bereits Mechanical Turk verwendet haben), die Stimmungsanalysen durchführen ( AFINN , Bing Liu , MPQA , VADER , TextBlob usw.).
- Gefühlsidee
Meine aktuelle Idee ist, dass ich jeden Nachrichtenartikel in einigen dieser Bibliotheken (z. B. AFINN, dann TextBlob, dann VADER) und in Artikeln, die einstimmig positiv, negativ und neutral sind, obwohl alle drei Bibliotheken in den Korpus aufgenommen werden. Scheint das ein ziemlich starker und vernünftiger Überprüfungsprozess zu sein?
- Sprachidee
Die nächste Ausgabe betrifft die Sprache selbst. Die obige 3-lib-Pipeline kann problemlos auf Englisch ausgeführt werden. Diese Bibliotheken unterstützen jedoch nicht viele andere Sprachen (Spanisch, Deutsch, Chinesisch, Arabisch, Französisch, Portugiesisch usw.). Ich habe darüber nachgedacht, das zu tun, was VADER vorschlägt, die Nachrichten in nicht-englischen Sprachen aufzunehmen und sie über Google Translation zu senden API, um sie ins Englische zu bringen und sie dann über die vorhandene 3-lib-Pipeline oben zu senden. Mir ist klar, dass es bei vielen Artikeln zu einem Verlust der Semantik kommen wird. Ich hoffe jedoch, dass genügend Artikel gut genug übersetzt werden, damit einige die 3-lib-Pipeline durchlaufen.
Ich bin mir bewusst, dass das Übersetzen und Senden von Nachrichtenartikeln über diese dreifach blinde Stimmungspfeife 100.000 Korpus erfordern und 10.000 Ergebnisse liefern kann. Damit bin ich einverstanden. Die Genauigkeit und dann der Preis sind mein Anliegen. Ich kann leicht mehr Daten erfassen.
Was würden Sie tun, um einen Stimmungskorpus von Nachrichtenartikeln zu erreichen? Gibt es eine bewährte Methode für die Zusammenstellung eines solchen Korpus?