Korrelierende Volume-Zeitreihen

Betrachten Sie das folgende Diagramm:

Twitter und Handelsvolumen

Die rote Linie (linke Achse) beschreibt das Handelsvolumen einer bestimmten Aktie. Die blaue Linie (rechte Achse) beschreibt das Twitter-Nachrichtenvolumen für diese Aktie. Zum Beispiel wurden am 9. Mai (05-09) ungefähr 1.100 Millionen Trades und 4.000 Tweets getätigt.

Ich möchte berechnen, ob es eine Korrelation zwischen den Zeitreihen gibt, entweder am selben Tag oder mit einer Verzögerung - zum Beispiel: Das Tweet-Volumen korreliert mit dem Handelsvolumen einen Tag später. Ich lese viele Artikel, die eine solche Analyse durchgeführt haben, zum Beispiel das Korrelieren von Finanzzeitreihen mit Mikro-Blogging-Aktivitäten , aber sie beschreiben nicht, wie eine solche Analyse in der Praxis durchgeführt wird. Folgendes wird im Artikel angegeben:

Bildbeschreibung hier eingeben

Ich habe jedoch nur sehr wenig Erfahrung mit statistischen Analysen und weiß nicht, wie ich diese für die Serie ausführen soll, die ich habe. Ich verwende SPSS (auch als PASW bekannt) und meine Frage lautet: Welche Schritte sind zu unternehmen, um eine solche Analyse ab dem Punkt durchzuführen, an dem dem obigen Bild eine Datendatei zugrunde liegt? Ist ein solcher Test eine Standardfunktion (und wie heißt er) und / oder wie könnte ich ihn sonst ausführen?

Jede Hilfe wäre sehr dankbar :-)

time-series correlation lags

— Pr0no
quelle

Sie können sie berechnen ... Sie können sie einfach nicht mit kritischen Werten vergleichen, es sei denn, die beiden Serien sind bi-variabel normal

— IrishStat

Ich habe Rohdaten hier eingefügt: pastebin.com/tZajRae9 Gibt es eine Möglichkeit, festzustellen, ob die Reihen normal sind, wenn sie zwei Variationen aufweisen? Ich würde mich sehr über Ihren Kommentar freuen.

— Pr0no

Nach dem Erkennen der Ausreißer / Pegelverschiebungen in jeder der Reihen zeigte die resultierende angepasste Reihe ein AR (1) -Modell. Nach Einbeziehung nicht nur der Outlier / Level Shift-Anpassung UND des empirisch identifizierten AR (1) waren beide Rauschreihen frei von Autokorrelation (innerhalb der Struktur). Eine Kreuzkorrelation dieser beiden Ersatzreihen zeigte keine substanzielle Kreuzkorrelation (zwischen den Strukturen) an, so dass die Anzahl der Tweets die Vorhersage des Volumens nicht zu unterstützen scheint.

— IrishStat

Antworten:

Zwei Überprüfungen auf bivariate Normalität überprüfen drei Dinge:

Überprüfen Sie, ob die erste Reihe von Beobachtungen geringfügig normal ist.
Überprüfen Sie, ob die zweite Reihe von Beobachtungen geringfügig normal ist.
regressieren aufeinander und prüfen, ob die Residuen normal sind.

Um die Normalität bei jedem dieser Schritte zu überprüfen, verwenden Sie normale qq-Diagramme oder Sie können einen beliebigen Normalitätshypothesentest verwenden.

Alternativ können Sie prüfen, ob jede mögliche Linearkombination (reelle Koeffizienten) der beiden Reihen geringfügig normal ist. Das wäre allerdings wahrscheinlich schwierig.

Bearbeiten: (6 Jahre später) Ich werde das oben für die Nachwelt behalten, aber beachten Sie, dass ich eine neuere Antwort auf eine ähnliche Frage hier habe .

— Taylor
quelle

Ich habe die Schritte 1 und 2 ausgeführt und die folgenden Boxplots erstellt: i.imgur.com/SDOTE.png Mit Ausnahme der 3 bis 5 Ausreißer-Beobachtungen sehen sie geringfügig normal aus. Die Sig. Der Wert für den Shapiro-Wilk-Test beträgt 0,000, was auf eine signifikante Abweichung von der Normalität hindeutet. Mit entfernten Ausreißern, Shapiro Wilk Sig. ist 0.201 für Tweets und 0.004 für Trades. Bedeutet dies, dass keine Korrelation möglich ist? Dies ist auch eine Zeitserie - das Löschen von Ausreißern bedeutet das Löschen von Tagen innerhalb des recherchierten Zeitrahmens. Ist das eine akzeptierte Praxis?

— Pr0no

Ich habe auch einen PP-Plot für Schritt 3 erstellt. Oder zumindest ist dies in meiner Interpretation das, was ich brauche (eine lineare Regression mit normalem Wahrscheinlichkeitsplot): i.imgur.com/EZ3Ic.png Irgendwelche Kommentare?

— Pr0no

Die Randverteilungen sehen nicht normal aus. Es gibt einen kleinen Abschnitt auf Schlußfolgerung auf der Wikipedia - Seite Link . Das Entfernen von Ausreißern ist im Allgemeinen keine gute Idee. Vielleicht booten Sie ein Konfidenzintervall.

— Taylor

Bei der Frage geht es um Korrelation, bei der Antwort jedoch um Normalität. Die Antwort wird mehrfach positiv bewertet und akzeptiert. Was vermisse ich hier?

— Richard Hardy

Eine bivariate Normalverteilung ist das einfachste Modell, das die Verwendung der Pearson-Korrelation motiviert / rechtfertigt.

— Taylor

Der Korrelationskoeffizient zwischen Zeitreihen ist unbrauchbar. Siehe KORRELATIONSKOEFFIZIENT - Kritische Werte für das Testen der Signifikanz . U. Yule wies 1926 erstmals darauf hin. Yule, GU, 1926, "Warum bekommen wir manchmal Unsinnkorrelationen zwischen Zeitreihen? Eine Studie über Stichproben und die Art von Zeitreihen", Journal of the Royal Statistical Society 89, 1 –64 . Vielleicht möchten Sie googeln "Warum bekommen wir Unsinn Korrelation" für mehr.

Der Grund dafür sind Korrelationstests, die eine Gelenknormalität erfordern. Gelenknormalität erfordert, dass jede Serie normal ist. Normalität erfordert Unabhängigkeit. Um die Beziehung zwischen Zeitreihen zu untersuchen, lesen Sie bitte Transfer Function Identification in einem guten Zeitreihenbuch wie Time Series Analysis: Univariate und Multivariate Methods von William WS Wei und David P. Reilly .

Herausforderung Antwort

In Bezug auf eine Antwort auf Ihre Herausforderung. Es ist einigen bekannt ( Yule, GU, 1926 ), dass die Korrelation zweier Zeitreihen fehlerhaft sein kann, insbesondere wenn beide Reihen von Impulsen / Pegelverschiebungen / saisonalen Impulsen und / oder lokalen Zeittrends beeinflusst werden. In diesem Fall würde ich jede der Reihen GETRENNT nehmen und die ARIMA-Struktur und alle Impulse / Pegelverschiebungen / saisonalen Impulse und / oder lokalen Zeittrends identifizieren, die zutreffen und einen Fehlerprozess erzeugen könnten.

Mit zwei sauberen Fehlerprozessen, einem für jede der beiden ursprünglichen Reihen, würde ich die Kreuzkorrelation berechnen, die dann verwendet werden könnte, um den Grad der Assoziation über die autokorrelative Struktur innerhalb jeder Reihe hinaus zu messen. Diese Lösung wird zweckmäßigerweise als doppelter Vorweißungsansatz bezeichnet.

Sehen:

— IrishStat
quelle

Danke für deine Antwort. Aber sagen Sie dann, dass das von mir erwähnte Papier per Definition keinen Wert hat? Bedeutet dies zweitens, dass per Definition zwei Reihen niemals korreliert werden können, wenn die Korrelation eine Bedeutung hat?

— Pr0no

Die Korrelation kann als einfache Arithmetik berechnet werden. Was (leicht) nicht berechnet werden kann, ist die Wahrscheinlichkeit, dass die Korrelation statistisch signifikant ist. Denken Sie an das erste Mal zurück, als Sie den Korrelationskoeffizienten kennengelernt haben. Es handelte sich um N unabhängige Proben, bei denen für jede der N unabhängigen Proben zwei Eigenschaften / Werte berechnet wurden und die Fugendichte bivariat normal war.

— IrishStat

Warum erfordert es eine gemeinsame Normalität und nicht nur die gleiche (symmetrische?) Verteilung? dh würde die gemeinsame einheitlichkeit nicht auch funktionieren?

— Naught101

@ NAUGHT101. Kritische Werte für den Korrelationskoeffizienten liegen unter der Annahme von Gelenknormalität und andernfalls undefiniert vor.

— IrishStat

@IrishStat Vielen Dank für Ihre bearbeitete Antwort. Es wird geschätzt. QQ-Diagramme der einzelnen Variablen finden Sie unter i.imgur.com/SDOTE.png . Nachdem Ausreißer entfernt wurden, sieht ein PP- Plot, von dem ich verstehe, welche Maße Gelenknormlaität aufweisen, wie folgt aus: i.imgur.com/EZ3Ic.png Kommentare?

— Pr0no