Wie werden korrelierte Zufallszahlen generiert (gegebene Mittelwerte, Varianzen und Grad der Korrelation)?

53

Es tut mir leid, wenn dies ein bisschen zu grundlegend erscheint, aber ich schätze, ich versuche hier nur, das Verständnis zu bestätigen. Ich habe das Gefühl, dass ich dies in zwei Schritten tun müsste, und ich habe angefangen, Korrelationsmatrizen zu erstellen, aber es scheint erst sehr involviert zu sein. Ich suche eine prägnante Erklärung (idealerweise mit Hinweisen auf eine Pseudocodelösung) für einen guten, idealerweise schnellen Weg, um korrelierte Zufallszahlen zu generieren.

Angesichts zweier Pseudozufallsvariablen Größe und Gewicht mit bekannten Mitteln und Varianzen sowie einer gegebenen Korrelation versuche ich im Grunde zu verstehen, wie dieser zweite Schritt aussehen sollte:

   height = gaussianPdf(height.mean, height.variance)
   weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), 
                        correlated_variance(height.variance, 
                        correlation_coefficient))

Wie berechne ich den korrelierten Mittelwert und die Varianz? Aber ich möchte bestätigen, dass das hier wirklich das relevante Problem ist.
Muss ich auf Matrixmanipulation zurückgreifen? Oder habe ich noch etwas sehr Falsches in meiner grundlegenden Herangehensweise an dieses Problem?

— Joseph Weissman
quelle

1

Ich bin mir nicht sicher, ob ich Sie richtig verstehe, aber Sie müssen nicht den "korrelierten Mittelwert und die Varianz" berechnen. Wenn Sie davon ausgehen, dass die Variablen bivariat normal sind, sollten Sie die einzelnen Mittelwerte und Varianzen sowie die Korrelation angeben. Gibt es eine bestimmte Software, die Sie dafür verwenden möchten?

— mark999

3

Die folgenden Fragen sind eng miteinander verbunden und werden von Interesse sein: Wie kann eine Verteilung definiert werden, die mit einer Auslosung einer anderen vordefinierten Verteilung korreliert? & Erzeugen Sie eine Zufallsvariable mit einer definierten Korrelation zu einer vorhandenen Variablen .

— gung - Wiedereinsetzung von Monica

1

Außerdem: Wie kann ich Daten mit einer vorgegebenen Korrelationsmatrix generieren?

— gung - Wiedereinsetzung von Monica

44

Zur Beantwortung Ihrer Frage "Ein guter, idealerweise schneller Weg, um korrelierte Zufallszahlen zu generieren": Bei einer gewünschten Varianz-Kovarianz-Matrix , die per Definition eindeutig positiv ist, ist ihre Cholesky-Zerlegung: = ; ist die untere Dreiecksmatrix. $C$ $C$ $LL^T$ $L$

Wenn Sie nun mit dieser Matrix einen unkorrelierten Zufallsvariablenvektor projizieren, ist die resultierende Projektion die von korrelierten Zufallsvariablen. $L$ $X$ $Y = LX$

Eine kurze Erklärung dafür finden Sie hier .

— usεr11852 sagt Reinstate Monic
quelle

Vielen Dank! Das war enorm hilfreich. Ich glaube, ich habe zumindest ein besseres Gespür dafür, was ich als Nächstes betrachten muss.

— Joseph Weissman

7

Gilt diese Methode nur für Gauß-Verteilungen (wie in der Frage angegeben) oder kann sie zum Generieren von korrelierten Variablen verwendet werden, die anderen Verteilungen folgen? Wenn nicht, kennen Sie eine Methode, die in diesem Fall verwendet werden könnte?

— user000001

1

@ Michael: Ja. Vorausgesetzt, dass eine gültige Kovarianzmatrix ist, ist die Cholesky-Zerlegung der schnellste Weg. Sie könnten auch die (symmetrische) Quadratwurzel- Matrix von mit SVD erhalten (also , wobei von ), aber das wäre mehr auch teuer.

C

$C$

X

$X$

C

$C$

C = X X = X X^{T}

$C = XX = XX^T$

X = U S^{0.5} V^{T}

$X = U S^{0.5} V^T$

C = U S V^{T}

$C = USV^T$

— usεr11852 sagt Reinstate Monic

1

@ Michael: Natürlich. Ihre Kovarianz wird (ungefähr) gleich sein, nicht die Zahlen selbst.

— usεr11852 sagt Reinstate Monic

1

@Sid: Jede kontinuierliche Verteilung, die nicht auf der gesamten realen Leitung unterstützt wird, schlägt sofort fehl. Wenn wir zum Beispiel ein einheitliches , können wir nicht garantieren, dass die "korrelierten Zahlen" in ; Ähnliches gilt für ein Poisson, wenn wir nicht diskrete Zahlen erhalten. Darüber hinaus schlägt auch jede Verteilung fehl , bei der die Summe der Verteilungen noch nicht dieselbe Verteilung ist (z. B. die Summierung der Verteilung führt nicht zu Verteilungen ). In allen genannten Fällen werden die produzierten Zahlen mit dem korreliert , sie entsprechen jedoch nicht der von uns gestarteten Verteilung.

U [0, 1]

$U[0,1]$

[0, 1]

$[0,1]$

t

$t$

t

$t$

C

$C$

— usεr11852 sagt Reinstate Monic

36

+1 an @ user11852 und @ jem77bfp, das sind gute Antworten. Lassen Sie mich dies aus einer anderen Perspektive betrachten, nicht weil ich denke, dass es in der Praxis unbedingt besser ist , sondern weil ich es für lehrreich halte. Hier sind einige relevante Fakten, die wir bereits kennen:

$r$ ist die Steigung der Regressionslinie , wenn beide und sind standardisiert , dh , $X$ $Y$ $\mathcal N(0,1)$
$r^2$ ist der Anteil der Varianz in der auf die Varianz in , $Y$ $X$

(auch aus den Regeln für Abweichungen ):
Die Varianz einer Zufallsvariablen multipliziert mit einer Konstanten ist das Quadrat der ursprünglichen Varianz:
$Var [a X] = a^{2} Var [X]$ $\text{Var}[aX]=a^2\text{Var}[X]$
Varianzen addieren , dh die Varianz der Summe zweier Zufallsvariablen (sofern sie unabhängig sind) ist die Summe der beiden Varianzen:
$Var [X + ε] = Var [X] + Var [ε]$ $\text{Var}[X+\varepsilon]=\text{Var}[X]+\text{Var}[\varepsilon]$

Jetzt können wir diese vier Fakten kombinieren, um zwei normale Standardvariablen zu erstellen, deren Populationen eine bestimmte Korrelation haben, (genauer gesagt ), obwohl die von Ihnen generierten Stichproben unterschiedliche Stichproben-Korrelationen haben. Die Idee ist, eine Pseudozufallsvariable zu erstellen , die normal ist, , und dann einen Koeffizienten und eine Fehlervarianz , so dass , wobei . (Beachten Sie, dass muss, damit dies funktioniert, und dass außerdem .) Sie beginnen also mit dem $r$ $\rho$ $X$ $\mathcal N(0,1)$ $a$ $v_e$ $Y \sim\mathcal N(0,a^2+v_e)$ $a^2+v_e=1$ $|a|$ $\le 1$ $a=r$ $r$ das du willst; das ist dein Koeffizient, . Dann ermitteln Sie die benötigte Fehlervarianz: . (Wenn Ihre Software die Verwendung der Standardabweichung erfordert, nehmen Sie die Quadratwurzel dieses Werts.) Generieren Sie schließlich für jede von Ihnen generierte Pseudozufallsvariable eine Pseudozufallsvariable mit der entsprechenden Fehlervarianz . und die korrelierte Pseudozufallsvariable durch Multiplizieren und Addieren zu berechnen . $a$ $1-r^2$ $x_i$ $e_i$ $v_e$ $y_i$

Wenn Sie dies in R tun möchten, könnte der folgende Code für Sie funktionieren:

correlatedValue = function(x, r){
  r2 = r**2
  ve = 1-r2
  SD = sqrt(ve)
  e  = rnorm(length(x), mean=0, sd=SD)
  y  = r*x + e
  return(y)
}

set.seed(5)
x = rnorm(10000)
y = correlatedValue(x=x, r=.5)

cor(x,y)
[1] 0.4945964

(Edit: Ich habe vergessen zu erwähnen :) Wie ich es beschrieben habe, liefert diese Prozedur zwei normale korrelierte Standardvariablen. Wenn Sie keine Standardnormalen möchten , aber möchten, dass die Variablen bestimmte Mittelwerte (nicht 0) und SDs (nicht 1) haben, können Sie sie transformieren, ohne die Korrelation zu beeinträchtigen. Sie subtrahieren also den beobachteten Mittelwert, um sicherzustellen, dass der Mittelwert genau ist. Multiplizieren Sie die Variable mit der gewünschten SD und addieren Sie dann den gewünschten Mittelwert. Wenn Sie möchten, dass der beobachtete Mittelwert normal um den gewünschten Mittelwert schwankt, würden Sie die anfängliche Differenz zurückaddieren. Dies ist im Wesentlichen eine umgekehrte Z-Score-Transformation. Da es sich um eine lineare Transformation handelt, hat die transformierte Variable dieselbe Korrelation mit der anderen Variablen wie zuvor. $0$

Auch hier können Sie in der einfachsten Form nur ein Paar korrelierter Variablen generieren (dies könnte skaliert werden, wird aber schnell hässlich) und ist sicherlich nicht die bequemste Methode, um die Aufgabe zu erledigen. In R möchten Sie ? Mvrnorm im MASS- Paket verwenden, da dies einfacher ist und Sie mit einer bestimmten Populationskorrelationsmatrix viele Variablen generieren können. Dennoch finde ich es lohnend, diesen Prozess durchlaufen zu haben, um zu sehen, wie sich einige Grundprinzipien auf einfache Weise auswirken.

— gung - Wiedereinsetzung von Monica
quelle

Dieser im Wesentlichen regressive Ansatz ist besonders nützlich, wenn man ein zufälliges Y erzeugen lässt, das mit einer beliebigen Anzahl vorhandener X- "Prädiktoren" korreliert . Habe ich in diesem Verständnis recht?

— TTNPHNS

Es hängt genau davon ab, welches Korrelationsmuster zwischen den gewünschten Variablen (@ttnphns) vorliegt. Sie können dies nacheinander durchlaufen, aber es würde langweilig werden. Um viele korrelierte Variablen mit einem bestimmten Muster zu erstellen, ist es besser, die Cholesky-Zerlegung zu verwenden.

— gung - Wiedereinsetzung von Monica

Wissen Sie, wie Sie mit Cholesky ein Y-Korrelat (ungefähr wie in Ihrer Methode) anhand eines Korrelationsvektors mit mehreren vorhandenen (nicht simulierten) X erzeugen können?

— TTNPHNS

@ttnphns, möchten Sie ein einzelnes Y mit einer gegebenen Populationskorrelation mit einer Menge von X erzeugen, nicht mit einer Menge von p Variablen, die alle vorgegebene Populationskorrelationen haben? Eine einfache Möglichkeit wäre, eine Regressionsgleichung zu schreiben, um einen einzelnen Y-Hut aus Ihren X zu generieren, und dann die obige Methode zu verwenden, um Y als Korrelat Ihres Y-Huts zu generieren. Sie können eine neue Frage stellen, wenn Sie möchten.

— gung - Wiedereinsetzung von Monica

1

Das habe ich in meinem ersten Kommentar gemeint: Diese Methode ist eine direkte Erweiterung dessen, wovon Sie in Ihrer Antwort sprechen: im Wesentlichen eine Regressionsmethode (Hat-Methode).

— TTNPHNS

16

Im Allgemeinen keine einfache Sache zu tun, aber ich glaube , dass es Pakete für sind multivariate Normal variable Generation (zumindest in R finden Sie mvrnormim MASSPaket), in dem gerade eingegebenen eine Kovarianzmatrix und eine mittlere Vektor.

$(X_1,X_2)$ $F(x_1,x_2)$ $F$ $x_2$

F_{X_{1}} (x_{1}) = \int_{- \infty}^{\infty} F (x_{1}, x_{2}) d x_{2} .

$F_{X_1}(x_1)= \int_{-\infty}^{\infty} F(x_1,x_2)dx_2.$

F_{X_{1}}^{- 1}

$F^{-1}_{X_1}$

F_{X_{1}}

$F_{X_1}$

ξ_{1}

$\xi_1$

[0, 1]

$[0,1]$

{\hat{x}}_{1} = F_{X_{1}}^{- 1} (ξ)

$\hat{x}_1=F^{-1}_{X_1}(\xi)$

Da wir nun eine Koordinate haben, müssen wir sie in unsere ursprüngliche Verteilungsfunktion und dann eine bedingte Verteilungsfunktion mit der Bedingung : wobei eine Wahrscheinlichkeitsdichtefunktion von ist marginale Verteilung; dh . $F(x_1,x_2)$ $x_1=\hat{x}_1$

F (x_{2} | X_{1} = {\hat{x}}_{1}) = \frac{F ({\hat{x}}_{1}, x_{2})}{f_{X_{1}} ({\hat{x}}_{1})},

$F(x_2 | X_1=\hat{x}_1)= \frac{F(\hat{x}_1,x_2)}{f_{X_1}(\hat{x}_1)},$

f_{X_{1}}

$f_{X_1}$

X_{1}

$X_1$

F_{X_{1}}^{'} (x_{1}) = f_{X_{1}} (x_{1})

$F'_{X_1}(x_1)=f_{X_1}(x_1)$

Dann erzeugen Sie wieder eine gleichmäßig verteilte Variable auf (unabhängig von ) und fügen sie in die Umkehrung von . Daher erhalten Sie ; das heißt, erfüllt . Diese Methode kann auf Vektoren mit mehr Dimensionen verallgemeinert werden, hat jedoch den Nachteil, dass Sie viele Funktionen analytisch oder numerisch berechnen müssen. Die Idee finden Sie auch in diesem Artikel: http://www.econ-pol.unisi.it/dmq/pdf/DMQ_WP_34.pdf . $\xi_2$ $[0,1]$ $\xi_1$ $F(x_2 | X_1=\hat{x}_1)$ $\hat{x}_2=(F(x_2 | X_1=\hat{x}_1))^{-1}(\xi)$ $\hat x_2$ $F(\hat x_2 | X_1=\hat{x}_1) = \xi$

Wenn Sie die Bedeutung des Einfügens einer einheitlichen Variablen in eine inverse Wahrscheinlichkeitsverteilungsfunktion nicht verstehen, versuchen Sie, eine Skizze des univariaten Falls zu erstellen, und erinnern Sie sich dann an die geometrische Interpretation der inversen Funktion.

— jem77bfp
quelle

Kluge Idee! Hat einfache intuitive Anziehungskraft. Aber ja scheint rechenintensiv.

— MichaelChirico

(+1) sehr guter Punkt. Am Anfang wäre es besser zu sagen, dass , dann fließt es natürlicher, zuerst eine mariginal Distribution zu generieren und dann die bedingte Verteilung. Sehr gut!

f_{X, Y} (x, y) = f_{X} (x) \cdot f_{Y | X} (y)

$f_{X,Y}(x,y)=f_X(x)\cdot f_{Y|X}(y)$

— KevinKim

1

Wenn Sie bereit sind, auf Effizienz zu verzichten, können Sie einen Wegwerfalogorithmus verwenden. Ihr Vorteil ist, dass sie beliebige Distributionen (nicht nur Gauß) zulässt.

Beginnen Sie, indem Sie zwei unkorrelierte Folgen von Zufallszahlen und mit beliebigen Verteilungen erzeugen . Sei durch den gewünschten Wert des Korrelationskoeffizienten. Dann machen Sie folgendes: $\{x_i\}_{i=1}^N$ $\{y_i\}_{i=1}^N$ $C$

1) Berechne den Korrelationskoeffizienten $c_{old}=corr(\{x_i\},\{y_i\})$

2) Generiere zwei Zufallszahlen und $n_1$ $n_2: 1 \leq n_{1,2} \leq N$

3) Tausche die Zahlen und $x_{n_1}$ $x_{n_2}$

4) Neue Korrelation $c_{new}=corr( \{x_i\},\{y_i\})$

5) Wenndann den Swap behalten. Andernfalls machen Sie den Swap rückgängig. $|C-c_{new}| < |C-c_{old}|$

6) Wenn stop, sonst gehe zu 1) $|C-c| < \epsilon$

Zufällige Swaps verändern die marginale Verteilung von . ${x_i}$

Viel Glück!

— F. Jatpil
quelle

x_{i}

$x_i$

c o r r (x_{i}, y_{i})

$corr(x_i, y_i)$

x_{i}

$x_i$

{x_{i}}

$\{x_i\}$

y

$y$

c o r r (x_{i}, y_{i})

$corr(x_i,y_i)$

c o r r ({x_{i}}, {y_{i}}) = (1 / N) Σ_{i = 1}^{N} (x_{i} - \bar{x}) (y_{y} - \bar{y})

$corr(\{x_i\},\{y_i\}) = (1/N) \Sigma_{i=1}^{N}(x_i- \bar x)(y_y - \bar y)$

{}

$\{ \}$

c o r r ({x_{i}}, {y_{i}})

$corr(\{x_i\}, \{y_i\})$