Unterschiedliche Wahrscheinlichkeitsdichte-Transformationen aufgrund des Jacobi-Faktors

In Bishops Mustererkennung und maschinellem Lernen las ich Folgendes, unmittelbar nachdem die Wahrscheinlichkeitsdichte eingeführt wurde: $p(x\in(a,b))=\int_a^bp(x)\textrm{d}x$

Bei einer nichtlinearen Änderung der Variablen transformiert sich eine Wahrscheinlichkeitsdichte aufgrund des Jacobi-Faktors anders als eine einfache Funktion. Wenn wir zum Beispiel eine Änderung der Variablen , wird eine Funktion zu . Betrachten Sie nun eine Wahrscheinlichkeitsdichte , die einer Dichte in Bezug auf die neue Variable , wobei die die Tatsache bezeichnen, dass und unterschiedliche Dichten sind. Beobachtungen, die in den Bereich , werden für kleine Werte von in den Bereich transformiert $x = g(y)$ $f(x)$ $\tilde{f}(y) = f(g(y))$ $p_x(x)$ $p_y(y)$ $y$ $p_x(x)$ $p_y(y)$ $(x, x + \delta x)$ $\delta x$ $(y, y + \delta y$ ) wobei $p_x(x)\delta x \simeq p_y(y)δy$ und damit $p_y(y) = p_x(x) |\frac{dx}{dy}| = p_x(g(y)) | g\prime (y) |$ .

Was ist der Jacobi-Faktor und was genau bedeutet alles (vielleicht qualitativ)? Bischof sagt, dass eine Konsequenz dieser Eigenschaft ist, dass das Konzept des Maximums einer Wahrscheinlichkeitsdichte von der Wahl der Variablen abhängt. Was bedeutet das?

Für mich kommt das alles aus heiterem Himmel (wenn man bedenkt, dass es im Einführungskapitel steht). Ich würde mich über einige Hinweise freuen, danke!

machine-learning probability

— ste
quelle

"Intuitive Erklärung für die Dichte einer transformierten Variablen" könnte hilfreich sein. In Bezug auf "Jacobian" durchsuchen Sie bitte unsere Website .

— whuber

Eine ausführliche Beschreibung des Jacobi-Faktors finden Sie im Video-Tutorial der Khan Academy zur Jacobi-Determinante. khanacademy.org/math/multivariable-calculus/…

— JStrahl

Ich schlage vor, dass Sie die Lösung von Frage 1.4 lesen, die eine gute Intuition bietet.

Kurz gesagt, wenn Sie eine beliebige Funktion und zwei Variablen und die durch die Funktion , können Sie das Maximum der Funktion entweder durch direkte Analyse von : oder die transformierte Funktion : . Nicht überraschend, und werden als miteinander verknüpft (hier habe ich angenommen, dass . $f(x)$ $x$ $y$ $x = g(y)$ $f(x)$ $\hat{x} = argmax_x(f(x))$ $f(g(y))$ $\hat{y} = argmax_y(f(g(y))$ $\hat{x}$ $\hat{y}$ $\hat{x} = g(\hat{y})$ $\forall{y}: g^\prime(y)\neq0)$

Dies ist bei Wahrscheinlichkeitsverteilungen nicht der Fall. Wenn Sie eine Wahrscheinlichkeitsverteilung und zwei Zufallsvariablen haben, die durch . Dann gibt es keine direkte Beziehung zwischen und . Dies geschieht aufgrund des Jacobi-Faktors, ein Faktor, der zeigt, wie das Volumen durch eine Funktion wie Relativ verändert wird . $p_x(x)$ $x=g(y)$ $\hat{x} = argmax_x(p_x(x))$ $\hat{y}=argmax_y(p_y(y))$ $g(.)$

— MajidL
quelle