Wahrscheinlich ist dies eine sehr grundlegende Frage, aber ich bin nicht in der Lage, eine solide Antwort darauf zu finden. Ich hoffe hier kann ich.
Ich lese gerade Artikel als Vorbereitung für meine eigene Masterarbeit. Derzeit lese ich einen Artikel, der die Beziehung zwischen Tweets und Börsenmerkmalen untersucht.
In einer ihrer Hypothesen schlagen sie vor, dass "ein erhöhtes Tweet-Volumen mit einem Anstieg des Handelsvolumens verbunden ist".
Ich würde sie in den paarweise Korrelationen rechnen korrelieren tweetVolume
mit tradingVolume
, sondern sie Bericht mit der Version protokollierte: LN(tweetVolume)
und LN(tradingVolume)
.
Für meine Diplomarbeit habe ich dieses Stück ihres Papiers repliziert. Ich habe Tweets über 100 Unternehmen für mehr als 6 Monate ( tweetVolume
) und Aktienhandelsvolumen für den gleichen Zeitraum gesammelt . Wenn ich die absoluten Variablen korreliere, finde ich, r=.282, p.000
aber wenn ich die protokollierten Versionen verwende, finde ich r=.488, p=.000
.
Ich verstehe nicht, warum Forscher manchmal protokollierte Versionen ihrer Variablen verwenden und warum die Korrelation so viel höher erscheint, wenn Sie dies tun. Was ist der Grund dafür und warum ist es in Ordnung, protokollierte Variablen zu verwenden?
Ihre Hilfe wird gerne in Anspruch genommen :-)