Die Pearson-Korrelation wird verwendet, um die Korrelation zwischen Reihen zu untersuchen. Als Zeitreihe wird die Korrelation jedoch über verschiedene Verzögerungen hinweg betrachtet - die Kreuzkorrelationsfunktion .
Die Kreuzkorrelation wird durch die Abhängigkeit innerhalb der Reihen beeinflusst, daher sollte in vielen Fällen die Abhängigkeit innerhalb der Reihen zuerst beseitigt werden. Um diese Korrelation zu verwenden, anstatt die Reihe zu glätten , ist es tatsächlich üblicher (weil es sinnvoll ist), die Abhängigkeit zwischen Residuen zu untersuchen - der grobe Teil, der übrig bleibt, nachdem ein geeignetes Modell für die Variablen gefunden wurde.
Sie möchten wahrscheinlich mit einigen grundlegenden Ressourcen zu Zeitreihenmodellen beginnen, bevor Sie herausfinden, ob eine Pearson-Korrelation über (vermutlich) nichtstationäre, geglättete Reihen interpretierbar ist.
Insbesondere möchten Sie sich hier wahrscheinlich mit dem Phänomen befassen . [In Zeitreihen wird dies manchmal als falsche Korrelation bezeichnet , obwohl der Wikipedia-Artikel über falsche Korrelation die Verwendung des Begriffs in einer Weise einschränkt, die diese Verwendung des Begriffs auszuschließen scheint. Sie werden wahrscheinlich mehr zu den hier diskutierten Themen finden, indem Sie stattdessen nach falscher Regression suchen .]
[Bearbeiten - die Wikipedia-Landschaft ändert sich ständig; der obige Abs. sollte wahrscheinlich überarbeitet werden, um zu reflektieren, was jetzt da ist.]
zB siehe einige Diskussionen
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (das Eröffnungszitat von Yule in einem Artikel aus dem Jahr 1925, der jedoch im folgenden Jahr veröffentlicht wurde, fasst das Problem recht gut zusammen)
Christos Agiakloglou und Apostolos Tsimpanos, Scheinkorrelationen für stationären AR (1) Verarbeitet http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (dies zeigt , dass Sie auch bekommen können das Problem zwischen stationären Reihen; daher die Tendenz, vorzuhellen)
Die oben erwähnte klassische Referenz von Yule (1926) [1].
Sie können die Diskussion hier auch nützlich finden, ebenso wie die Diskussion hier
-
Die sinnvolle Verwendung der Pearson-Korrelation zwischen Zeitreihen ist schwierig und manchmal überraschend subtil.
Ich habe nach einer falschen Korrelation gesucht, aber es ist mir egal, ob meine A-Serie die Ursache für meine B-Serie ist oder umgekehrt. Ich möchte nur wissen, ob Sie etwas über Serie A lernen können, indem Sie sich ansehen, was Serie B tut (oder umgekehrt). Mit anderen Worten - haben sie eine Korrelation.
Beachten Sie meinen vorherigen Kommentar zur engen Verwendung des Begriffs "falsche Korrelation" im Wikipedia-Artikel.
Der Punkt über falsche Korrelation ist, dass Reihen korreliert erscheinen können, aber die Korrelation selbst ist nicht aussagekräftig. Stellen Sie sich zwei Personen vor, die zwei verschiedene Münzen werfen, die die Anzahl der Köpfe bis jetzt abzüglich der Anzahl der Schwänze bis zu dem Wert ihrer Serie zählen.
HTHH...1,0,1,2,...
Offensichtlich gibt es keinen Zusammenhang zwischen den beiden Serien. Offensichtlich weder können Sie das erste , was über die anderen sagen!
Aber schauen Sie sich die Art der Korrelationen an, die Sie zwischen Paaren von Münzen erhalten:
Wenn ich Ihnen nicht sagen würde, was das ist, und Sie ein Paar dieser Serien für sich genommen hätten, wären das beeindruckende Zusammenhänge, nicht wahr?
Aber sie sind alle bedeutungslos . Äußerst falsch. Keines der drei Paare ist wirklich positiver oder negativer miteinander verwandt als eines der anderen - es ist nur kumuliertes Rauschen . Bei der Fälschung geht es nicht nur um Vorhersagen, der ganze Gedanke , die Assoziation zwischen Serien zu betrachten, ohne die Abhängigkeit innerhalb der Serien zu berücksichtigen, ist falsch.
Alles, was Sie hier haben, ist die Abhängigkeit innerhalb der Serie . Es gibt überhaupt keine tatsächliche serienübergreifende Beziehung.
Wenn Sie das Problem, durch das diese Serien automatisch abhängig werden, richtig gelöst haben - sie sind alle integriert ( Bernoulli Random Walks ), und Sie müssen sie unterscheiden -, verschwindet die "scheinbare" Assoziation (die größte absolute serienübergreifende Korrelation der drei ist 0,048).
Was das sagt, ist die Wahrheit - die scheinbare Assoziation ist eine bloße Illusion, die durch die Abhängigkeit innerhalb der Reihen verursacht wird.
Ihre Frage lautete "Wie man die Pearson-Korrelation richtig mit Zeitreihen verwendet" - bitte haben Sie Verständnis dafür: Wenn es eine Abhängigkeit innerhalb der Reihe gibt und Sie sich nicht zuerst damit befassen, werden Sie sie nicht richtig verwenden.
Darüber hinaus wird durch das Glätten das Problem der seriellen Abhängigkeit nicht verringert. ganz im Gegenteil - es macht es noch schlimmer! Hier sind die Korrelationen nach dem Glätten (Standard Lößglatt - von Serie vs. Index - durchgeführt in R):
coin1 coin2
coin2 0.9696378
coin3 -0.8829326 -0.7733559
Sie sind alle weiter von 0 entfernt. Sie sind immer noch nichts als bedeutungsloses Rauschen , obwohl es jetzt geglättetes, kumuliertes Rauschen ist. (Durch Glätten reduzieren wir die Variabilität in der Reihe, die wir in die Korrelationsberechnung einfließen lassen, sodass möglicherweise die Korrelation steigt.)
[1]: Yule, GU (1926) "Warum bekommen wir manchmal Unsinn-Korrelationen zwischen Zeitreihen?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63