Wie ist die Verteilung des euklidischen Abstandes zwischen zwei normalverteilten Zufallsvariablen?

Angenommen, Sie erhalten zwei Objekte, deren genaue Position unbekannt ist, die jedoch gemäß Normalverteilungen mit bekannten Parametern verteilt sind (z. B. $a \sim N(m, s)$ und $b \sim N(v, t))$ . Wir können annehmen, dass dies beide bivariate Normalen sind, so dass die Positionen durch eine Verteilung über $(x,y)$ Koordinaten beschrieben werden (dh $m$ und $v$ sind Vektoren, die die erwarteten $(x,y)$ Koordinaten für $a$ bzw. $b$ ). Wir gehen auch davon aus, dass die Objekte unabhängig sind.

Weiß jemand, ob die Verteilung des quadratischen euklidischen Abstands zwischen diesen beiden Objekten eine bekannte parametrische Verteilung ist? Oder wie kann man das PDF / CDF für diese Funktion analytisch ableiten?

normal-distribution distance-functions

— Nick
quelle

Sie sollten ein Vielfaches einer nicht zentralen Chi-Quadrat-Verteilung erhalten, vorausgesetzt, alle vier Koordinaten sind nicht korreliert. Ansonsten sieht das Ergebnis viel komplizierter aus.

— whuber

@ Über alle Details / Hinweise, die Sie zur Verfügung stellen könnten, wie die Parameter der resultierenden nicht-zentralen Chi-Quadrat-Verteilung mit denen der Objekte a, b in Beziehung stehen, wäre fantastisch

— Nick

@Klicken Sie auf die ersten Absätze des Wikipedia-Artikels, um Einzelheiten zu erfahren . Anhand der charakteristischen Funktionen können Sie feststellen, dass ein ähnliches Ergebnis nicht verfügbar ist, wenn nicht alle Abweichungen gleich sind oder einige Korrelationen bestehen.

— Whuber

@Nick, nur um zu verdeutlichen, sind sowohl

a

$a$ als auch

b

$b$ Zufallsvektoren mit Werten in

R^{2}

$\mathbb{R}^2$ ?

— mpiktas

@Nick, wenn

und

gemeinsam normal sind, dann ist der Unterschied

normal. Dann besteht Ihr Problem darin, die Verteilung des zufälligen Normalenvektors zu finden. Googeln Ich habe diesen Link gefunden . Das Papier beschreibt ein viel komplexeres Problem, das in ganz bestimmten Fällen mit Ihrem übereinstimmt. Dies gibt einige Hoffnung, dass es eine eindeutige Antwort auf Ihre Frage gibt. Referenzen geben Ihnen möglicherweise weitere Ideen, wo Sie suchen können.

a

$a$

b

$b$

a - b

$a-b$

— mpiktas

Antworten:

Die Antwort auf diese Frage findet sich im Buch Quadratische Formen in Zufallsvariablen von Mathai und Provost (1992, Marcel Dekker, Inc.).

Wie die Kommentare verdeutlichen, müssen Sie die Verteilung von wobei einer bivariaten Normalverteilung mit mittlerem und Kovarianzmatrix folgt . Dies ist eine quadratische Form in der bivariaten Zufallsvariablen . $Q = z_1^2 + z_2^2$ $z = a - b$ $\mu$ $\Sigma$ $z$

Kurz gesagt, ein schönes allgemeines Ergebnis für den dimensionalen Fall, in dem und ist, dass die Momenterzeugungsfunktion $p$ $z \sim N_p(\mu, \Sigma)$

Q. = \sum_{j = 1}^{p} z_{j}^{2}

$Q = \sum_{j=1}^p z_j^2$

wobei

die Eigenwert von

und

ist eine lineare Funktion von

. Siehe Satz 3.2a.2 (Seite 42) in dem oben zitierten Buch (wir nehmen hier an, dass

nicht singulär ist). Eine weitere nützliche Darstellung ist 3.1a.1 (Seite 29)

E (e^{t Q.}) = e^{t \sum_{j = 1}^{p} \frac{b_{j}^{2} λ_{j}}{1 - 2 t λ_{j}}} \prod_{j = 1}^{p} (1 - 2 t λ_{j})^{- 1 / 2}

$E(e^{tQ}) = e^{t \sum_{j=1}^p \frac{b_j^2 \lambda_j}{1-2t\lambda_j}}\prod_{j=1}^p (1-2t\lambda_j)^{-1/2}$

λ_{1}, \dots, λ_{p}

$\lambda_1, \ldots, \lambda_p$

Σ

$\Sigma$

b

$b$

μ

$\mu$

Σ

$\Sigma$

wobei

iid

Q. = \sum_{j = 1}^{p} λ_{j} (u_{j} + b_{j})^{2}

$Q = \sum_{j=1}^p \lambda_j(u_j + b_j)^2$

u_{1}, \dots, u_{p}

$u_1, \ldots, u_p$

N (0, 1)

$N(0, 1)$

Das gesamte Kapitel 4 des Buches ist der Darstellung und Berechnung von Dichten und Verteilungsfunktionen gewidmet, was keineswegs trivial ist. Ich bin mit dem Buch nur oberflächlich vertraut, aber ich habe den Eindruck, dass alle allgemeinen Darstellungen in Form von unendlichen Reihenerweiterungen vorliegen.

In gewisser Weise lautet die Antwort auf die Frage also Ja, die Verteilung des quadratischen euklidischen Abstandes zwischen zwei bivariaten Normalenvektoren gehört zu einer bekannten (und gut untersuchten) Klasse von Verteilungen, die durch die vier Parameter parametrisiert werden und . Ich bin mir jedoch ziemlich sicher, dass Sie diese Distribution nicht in Ihren Standardlehrbüchern finden werden. $\lambda_1, \lambda_2 > 0$ $b_1, b_2 \in \mathbb{R}$

Beachten Sie außerdem, dass und nicht unabhängig sein müssen. Eine gemeinsame Normalität ist ausreichend (was automatisch ist, wenn sie unabhängig und normal sind), dann folgt die Differenz einer Normalverteilung. $a$ $b$ $a-b$

— NRH
quelle

Vielen Dank für den Hinweis, ich habe das Buch gefunden und versuche langsam, mich darin

— Nick,

@NRH Ich habe die MGF im symmetrischen Fall (

) mit

selbst durchgearbeitet und anstelle von

in der Summe habe ich

. Die Simulation überprüft den ersten Moment. Es ist möglich, dass dies die "lineare Funktion" ist, die Sie erwähnen, und dass dies dem symmetrischen Fall eigen ist, aber ich dachte, ich würde darauf hinweisen, falls ein Fehler auftritt.

λ_{j} = σ^{2}

$\lambda_j = \sigma^2$

p = 2

$p=2$

b_{j}^{2} λ_{j}

$b_j^2 \lambda_j$

μ_{j}^{2}

$\mu_j^2$

— Kyle

b_{j}

$b_j$

μ_{j}^{2}

$\mu_j^2$

$\mu_d = \mu_1 - \mu_2$ $\Sigma_d = \Sigma_1 + \Sigma_2$ $\Sigma_d = \mathrm{J} \Sigma_{12} \mathrm{J}^T$ $\Sigma_{12} = \begin{bmatrix} \Sigma_1 & \\ & \Sigma_2 \end{bmatrix}$ $\mathrm{J} = \begin{bmatrix} +\mathrm{I}, & -\mathrm{I} \end{bmatrix}$

Suchen Sie zweitens nach der Verteilung der Differenzvektorlänge oder des radialen Abstands vom Ursprung, der nach Hoyt verteilt ist :

Der Radius um den wahren Mittelwert in einer bivariaten korrelierten normalen Zufallsvariablen mit ungleichen Varianzen, umgeschrieben in Polarkoordinaten (Radius und Winkel), folgt einer Hoyt-Verteilung. Das pdf und das cdf sind in geschlossener Form definiert, die numerische Wurzelfindung wird verwendet, um cdf ^ −1 zu finden. Reduziert sich auf die Rayleigh-Verteilung, wenn die Korrelation 0 ist und die Varianzen gleich sind.

Eine allgemeinere Verteilung ergibt sich, wenn Sie eine voreingenommene Differenz (verschobener Ursprung) aus Ballistipedia berücksichtigen :

— Felipe G. Nievinski
quelle

+1, aber ich denke, es ist erwähnenswert, dass sich die Frage mit dem befasst, was Ihre Figur den "allgemeinen Fall" nennt.

— Amöbe sagt Reinstate Monica

Warum testen Sie es nicht aus?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Grundstück 1 Grundstück 2 Grundstück 3 Grundstück 4

— Brandon Bertelsen
quelle

Wie es aussehen würde, wenn die Varianzen gleich und die Variablen unkorreliert wären, haben Whubers Kommentare zur ursprünglichen Frage bereits ausgeführt. Vielleicht wäre es aufschlussreicher, ein Beispiel dafür zu nennen, wo dies nicht der Fall ist.

— Andy W

Können Sie ein solches Beispiel nennen?

— Brandon Bertelsen

Sie müssen lediglich die x- und y-Werte generieren, die entweder korreliert sind oder unterschiedliche Varianzen aufweisen. Die verschiedenen Abweichungen können direkt im Code vorgenommen werden. Sie können mit mvrnorm aus dem MASS-Paket Werte aus einer angegebenen Kovarianzmatrix generieren. Ich bin mir auch nicht sicher, welche Funktion "Zahnarzt" im obigen Code hat, sollte es vielleicht "Dichte" sein.

— Andy W

Abgesehen davon ist es wahrscheinlich genauso aufschlussreich, die Mathematik zu durcharbeiten, um festzustellen, warum dies der Fall ist (und wie die Manipulation der Varianz / Kovarianzen die Verteilung verändert). Es ist für mich nicht ganz klar, warum dies der Fall ist, wenn ich nur die von whuber erwähnte charakteristische Funktion betrachte. Es sieht so aus, als ob ein einfaches Verständnis der Regeln zum Hinzufügen, Subtrahieren und Multiplizieren von Zufallsvariablen Sie dahingehend bringt, zu verstehen, warum dies so ist.

— Andy W