Korrelation zwischen zwei Variablen ungleicher Größe


9

In einem Problem, an dem ich arbeite, habe ich zwei Zufallsvariablen, X und Y. Ich muss herausfinden, wie eng die beiden miteinander korrelieren, aber sie haben unterschiedliche Dimensionen. Der Rang des Zeilenraums von X beträgt 4350, und der Rang des Zeilenraums von Y ist mit Zehntausenden wesentlich größer. Sowohl X als auch Y haben die gleiche Anzahl von Spalten.

Ich brauche ein Maß für die Korrelation zwischen den beiden Variablen, und Pearson's r erfordert, dass X und Y die gleiche Dimension haben (mindestens R erfordert, dass die beiden rvs gleich sind).

Habe ich irgendeine Hoffnung, eine Korrelation zwischen diesen beiden herzustellen, oder sollte ich einen Weg finden, Beobachtungen von Y abzuschneiden?

 EDIT

Hinzufügen von Informationen aus den Kommentaren, die in der Frage sein sollten.

Ich habe wohl vergessen, das zu erwähnen. X und Y sind Aktienkurse. Firma X war viel kürzer als Y an der Börse. Ich wollte sagen, wie korreliert die Preise von X und Y sind. Ich könnte definitiv eine Korrelation für den Zeitraum erhalten, in dem X und Y existieren. Ich wollte wissen, ob mir die Kenntnis der Aktienkurse für einige zusätzliche Jahre von Y, dass X nicht existiert, zusätzliche Informationen lieferte.


2
Dies hört sich nicht so an, als hätten Sie Beobachtungen (oder "Fälle"), bei denen Sie sowohl eine X- als auch eine Y-Realisierung beobachten. Wie finden Sie heraus, welches X welchem ​​Y zugeordnet ist?
Stephan Kolassa

1
Ich habe wohl vergessen, das zu erwähnen. X und Y sind Aktienkurse. Firma X war viel kürzer als Y an der Börse. Ich wollte sagen, wie korreliert die Preise von X und Y sind. Ich könnte definitiv eine Korrelation für den Zeitraum erhalten, in dem X und Y existieren. Ich wollte wissen, ob mir die Kenntnis der Aktienkurse für einige zusätzliche Jahre von Y, dass X nicht existiert, zusätzliche Informationen lieferte.
Christopher Aden

2
@Christopher Ich würde empfehlen, dass Sie Ihre Frage aktualisieren, um Ihren obigen Kommentar widerzuspiegeln. Damit eine Korrelation sinnvoll ist, sind mehr als nur gleiche Dimensionen erforderlich. Die tatsächlichen Messungen müssen aus denselben Fällen stammen, was in Ihrem Fall vermutlich dieselben Zeitpunkte sind.
Jeromy Anglim


Eine andere Frage: Sie erwähnen, dass X und Y die gleiche Anzahl von Spalten haben. Wäre das jeweils einer? Oder haben Sie mehrere Serien für X und Y (Preise an verschiedenen Börsen oder dergleichen)?
Stephan Kolassa

Antworten:


10

Keine Menge an Imputation, Zeitreihenanalyse, GARCH-Modellen, Interpolation, Extrapolation oder anderen ausgefallenen Algorithmen wird irgendetwas tun, um Informationen dort zu erzeugen, wo sie nicht existieren (obwohl sie diese Illusion erzeugen können ;-). Die Geschichte des Y-Preises vor dem Börsengang von X ist für die Beurteilung ihrer nachfolgenden Korrelation nutzlos.

Manchmal (oft vor einem Börsengang) verwenden Analysten interne Buchhaltungsinformationen (oder Aufzeichnungen über private Aktientransaktionen), um nachträglich hypothetische Kurse für X-Aktien zu rekonstruieren, bevor diese an die Börse gehen. Möglicherweise könnten solche Informationen verwendet werden, um die Korrelationsschätzungen zu verbessern. Angesichts des äußerst vorläufigen Charakters solcher Backcasts bezweifle ich jedoch, dass der Aufwand hilfreich sein würde, außer wenn zunächst nur wenige Tage oder Wochen Preise für X verfügbar sind.


Klarstellung: Ich habe GARCH nicht erwähnt, um das Problem der fehlenden Daten zu lösen (was natürlich keinen Sinn ergibt) - sondern um eine einfache Berechnung der Korrelation zwischen den Zeitreihen zu Zeiten zu verbessern, in denen beide existieren.
Stephan Kolassa

@Stephan: OK. Ich erwähnte es hauptsächlich, um zu zeigen, dass ich dich nicht ignorierte!
whuber

1
Danke, whuber. Dies entspricht dem, wonach ich gesucht habe. Ich denke nicht, dass das Backcasting von großem Nutzen (oder Machbarkeit) sein wird, um ein paar zusätzliche Wochen X hinzuzufügen, wenn der gegenseitige Zeitrahmen zwischen X und Y bereits ungefähr 16 Jahre beträgt.
Christopher Aden

2
@ Christopher: !! Mit 16 Jahren (tägliche Schließungen?) Haben Sie genug Daten, um nicht nur eine Korrelation zu finden, sondern auch zu untersuchen, wie sie sich im Laufe der Zeit verändert hat. (Dies ist meiner Meinung nach der Geist von @Stephan Kolassas Antwort.)
whuber

Genau. Die Verwendung von Techniken, um herauszufinden, welche Werte X vor dem Börsengang angenommen hätte, scheint fehleranfällig zu sein. Ich könnte auch die Relevanz von Daten in Frage stellen, die 16 Jahre alt sind, um moderne Trends vorherzusagen.
Christopher Aden

10

Das Problem besteht also darin, dass Daten fehlen (nicht alle Y haben ein entsprechendes X, wobei die Korrespondenz über Zeitpunkte operationalisiert wird). Ich glaube, hier gibt es nicht viel zu tun, als nur das Y wegzuwerfen, für das Sie kein X haben, und die Korrelation für die vollständigen Paare zu berechnen.

Vielleicht möchten Sie sich über finanzielle Zeitreihen informieren, obwohl ich derzeit keine gute Referenz zur Hand habe (Ideen, irgendjemand?). Aktienkurse weisen häufig zeitlich variierende Volatilitäten auf, die beispielsweise von GARCH modelliert werden können . Es ist denkbar, dass Ihre beiden Zeitreihen X und Y in Zeiten geringer Volatilität positive Korrelationen aufweisen (wenn die Wirtschaft wächst, steigen alle Aktienkurse tendenziell), aber negative Korrelationen, wenn die Gesamtvolatilität hoch ist (am 11. September haben die Fluggesellschaften währenddessen gepanzert Geld floh zu sichereren Investitionen). Die Berechnung einer Gesamtkorrelation hängt daher möglicherweise zu stark von Ihrem Beobachtungszeitraum ab.

UPDATE: Ich denke, Sie möchten sich vielleicht VAR- Modelle (Vector Autoregressive) ansehen .


Grundlegende Referenzen zu Finanzzeitreihen finden Sie hier: stats.stackexchange.com/questions/328/… . Der Tsay-Text ist einer der beliebtesten.
Shane

2

@ Jeromy Anglim hat dies korrekt angegeben. Die zusätzlichen Informationen zu haben, wenn nur eine der Zeitreihen existiert, würde hier keinen Wert liefern. Und im Prinzip sollten die Daten gleichzeitig abgetastet werden, damit sie unter Verwendung herkömmlicher Korrelationsmaße aussagekräftig sind.

Als allgemeineres Problem möchte ich hinzufügen, dass es Techniken gibt, um mit unregelmäßig verteilten Zeitreihendaten umzugehen. Sie können nach "unregelmäßig beabstandeten Zeitreihenkorrelationen" suchen. Einige der jüngsten Arbeiten wurden unter Verwendung von Hochfrequenzdaten zu "Realized Volatility and Correlation" (Andersen, Bollerslev, Diebold und Labys 1999) durchgeführt.


1

Angesichts der zusätzlichen Informationen in Ihren Kommentaren würde ich empfehlen, zwei Korrelationen zu betrachten. Das erste wären die gemeinsamen Zeiträume, in denen beide Unternehmen tätig waren. Wenn man also ungefähr 2 Jahre zuvor war, würde man diese Daten einfach löschen und sich den Rest ansehen. Der zweite wäre der relative Zeitraum. Im zweiten Fall korrelieren Sie nicht die tatsächliche Zeit, sondern die seit dem Börsengang des Unternehmens gemessene Zeit.

Ersteres würde stark von den im gleichen Zeitraum geteilten allgemeinen wirtschaftlichen Kräften beeinflusst. Letzteres würde durch Immobilien beeinflusst, die von Unternehmen geteilt werden, wenn sie sich nach dem Börsengang ändern.


0

Eine andere Möglichkeit, ein solches Problem zu lösen, besteht darin, die fehlenden Daten für die kürzeren Reihen unter Verwendung eines Zeitreihenmodells zu unterstellen, das in einem bestimmten Kontext möglicherweise sinnvoll ist oder nicht.

In Ihrem Kontext würde die Anrechnung der Aktienkurse in die Vergangenheit bedeuten, dass Sie die folgende kontrafaktische Frage stellen: Wie hoch wäre der Aktienkurs für Unternehmen X, wenn es in der Vergangenheit n Jahre an die Börse gegangen wäre, anstatt tatsächlich an die Börse gegangen zu sein? Eine solche Datenimputation könnte möglicherweise unter Berücksichtigung der Aktienkurse verwandter Unternehmen, allgemeiner Markttrends usw. erfolgen. Eine solche Analyse ist jedoch möglicherweise angesichts der Ziele Ihres Projekts nicht sinnvoll oder nicht erforderlich.


0

Nun, vieles hängt von den Annahmen ab, die Sie treffen. Wenn Sie davon ausgehen, dass die Daten stationär sind, erhalten Sie mit mehr Daten für die erste Serie eine bessere Schätzung der Volatilität. Diese Schätzung kann verwendet werden, um die Korrelationsschätzung zu verbessern. Die folgende Aussage ist also falsch:

"Die Geschichte von Ys Preis vor dem Börsengang von X ist nutzlos, um ihre spätere Korrelation zu beurteilen."


Ich habe darüber nachgedacht. Theoretisch mag es funktionieren, wird aber sehr unrobust sein, also besser vermeiden.
kjetil b halvorsen

-1

Dies klingt nach einem Problem für einen Algorithmus für maschinelles Lernen. Daher würde ich versuchen, eine Reihe von Merkmalen herauszufinden, die einen bestimmten Aspekt des Trends beschreiben, und darauf trainieren. Die gesamte Theorie des maschinellen Lernens ist für diese Antwortbox etwas zu komplex, aber es wäre nützlich, wenn Sie sie lesen würden.

Aber ehrlich gesagt denke ich, dass es das schon gibt. Wo Geld verdient werden kann, denken die Leute darüber nach.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.