Negentropie ableiten. Steckenbleiben

Diese Frage ist also etwas umständlich, aber ich habe sorgfältig versucht, sie so einfach wie möglich zu gestalten.

Ziel: Kurz gesagt, es gibt eine Ableitung von Negentropie, die keine Kumulanten höherer Ordnung beinhaltet, und ich versuche zu verstehen, wie sie abgeleitet wurde.

Hintergrund: (Ich verstehe das alles)

Ich lerne selbst das Buch 'Independent Component Analysis' , das hier zu finden ist. (Diese Frage stammt aus Abschnitt 5.6, falls Sie das Buch "Approximation der Entropie durch nichtpolynomielle Funktionen" haben.)

Wir haben $x$ , eine Zufallsvariable, und deren Negentropie wir aus einigen Beobachtungen abschätzen möchten. Das PDF von $x$ ist gegeben durch $p_x(\zeta)$ . Negentropie ist einfach die Differenz zwischen der Differentialentropie einer standardisierten Gaußschen Zufallsvariablen und der Differentialentropie von $x$ . Die Differentialentropie ist hier durch $H$ , so dass:

H (x) = - \int_{- \infty}^{\infty} p_{x} (ζ) l o g (p_{x} (ζ)) d ζ

$H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta$

und so ist die Negentropie gegeben durch

J (x) = H (v) - H (x)

$J(x) = H(v) - H(x)$

wobei $v$ ein standardisiertes Gaußsches rv ist, wobei PDF durch $\phi(\zeta)$ .

Als Teil dieser neuen Methode hat mein Buch eine Schätzung des PDF von $x$ , die gegeben ist durch:

p_{x} (ζ) = ϕ (ζ) [1 + \sum_{i} c_{i} F^{i} (ζ)]

$p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)]$

(Wobei . By the way, bin nicht eine Macht, sondern ein Index statt). $c_i = \mathbb{E}\{F^i(x)\}$ $i$

Im Moment 'akzeptiere' ich diese neue PDF-Formel und werde sie an einem anderen Tag danach fragen. Dies ist nicht mein Hauptproblem. Was er jetzt tut, ist, diese Version des PDFs von wieder in die Negentropie-Gleichung einzubinden und am Ende Folgendes zu erhalten: $x$

J (x) \approx \frac{1}{2} \sum_{i} E {F^{i} (x)}^{2}

$J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2$

Denken Sie daran, dass das Sigma (hier und für den Rest des Beitrags) nur den Index . Wenn wir zum Beispiel nur zwei Funktionen hätten, würde sich das Signal für und schleifen . Natürlich sollte ich Ihnen etwas über die Funktionen erzählen, die er verwendet. Offensichtlich sind diese Funktionen wie folgt definiert: $i$ $i=2$ $i=2$ $F^i$

Die Funktionen sind nicht Polynomfunktionen in diesem Fall. (Wir nehmen an, dass rv Mittelwert Null und die Einheitsvarianz ist.) Nehmen wir nun einige Einschränkungen vor und geben Sie die Eigenschaften dieser Funktionen an: $F^i$ $x$

$F^{n + 1} (ζ) = ζ, c_{n + 1} = 0$ $F^{n+1}(\zeta) = \zeta, \: \: c_{n+1} = 0$
$F^{n + 2} (ζ) = ζ^{2}, c_{n + 1} = 1$ $F^{n+2}(\zeta) = \zeta^2, \: \: c_{n+1} = 1$
Zur Vereinfachung der Berechnungen, lassen Sie uns machen eine andere, rein technische Annahme: Die Funktionen , bilden ein orthonormales System als solches: $F^i, i = 1, ... n$

$\int ϕ (ζ) F^{i} (ζ) F^{j} (ζ) d ζ = {\begin{cases} 1, if i = j \\ 0, if i \neq j \end{cases}$ $\int \phi(\zeta) F^i(\zeta)F^j(\zeta)d\zeta= \begin{cases} 1, \quad \text{if } i = j \\ 0, \quad \text{if } i \neq j \end{cases}$
und

$\int ϕ (ζ) F^{i} (ζ) ζ^{k} d (ζ) = 0, for k = 0, 1, 2$ $\int \phi(\zeta)F^i(\zeta)\zeta^k d(\zeta) = 0, \quad \text{for } k = 0,1,2$

Fast dort! OK, all das war der Hintergrund und nun zur Frage. Die Aufgabe besteht darin, dieses neue PDF einfach in die Differential-Entropie-Formel . Wenn ich das verstehe, werde ich den Rest verstehen. Jetzt gibt das Buch die Herleitung (und ich stimme dem zu), aber ich stecke gegen Ende fest, weil ich nicht weiß / sehe, wie es sich aufhebt. Außerdem weiß ich nicht, wie ich die Small-O-Notation aus der Taylor-Erweiterung interpretieren soll. $H(x)$

Das ist das Ergebnis:

Verwenden der Taylor - Erweiterung , fürwir: $(1+\epsilon)log(1+\epsilon) = \epsilon + \frac{\epsilon^2}{2} + o(\epsilon^2)$ $H(x)$

H (x) = - \int ϕ (ζ) (1 + \sum c_{i} F^{i} (ζ)) (l o g (1 + \sum c_{i} F^{i} (ζ) + l o g (ζ)) d (ζ) = - \int ϕ (ζ) l o g (ζ) - \int ϕ (ζ) \sum c_{i} F^{i} (ζ) l o g (ϕ (ζ)) - \int ϕ (ζ) [\sum c_{i} F^{i} (ζ) + \frac{1}{2} (\sum c_{i} F^{i} (ζ))^{2} + o ((\sum c_{i} F^{i} (ζ))^{2})]

$H(x) = -\int \phi(\zeta) \; (1 + \sum c_i F^i(\zeta)) \; (log(1 + \sum c_i F^i(\zeta) + log(\zeta)) \; d(\zeta) \\ = -\int \phi(\zeta) log(\zeta) -\int \phi(\zeta) \sum c_i F^i(\zeta) log(\phi(\zeta)) -\int \phi(\zeta) \; [\sum c_i F^i(\zeta) + \frac{1}{2}(\sum c_i F^i(\zeta))^2 + o((\sum c_i F^i(\zeta))^2)]$

und so

Die Frage: (Ich verstehe das nicht)

H (x) = H (v) - 0 - 0 - \frac{1}{2} \sum c_{i}^{2} + o ((\sum c_{i})^{2}

$H(x) = H(v) - 0 - 0 -\frac{1}{2}\sum c_i^2 + o((\sum c_i)^2$

Also, mein Problem: Mit Ausnahme des verstehe ich nicht, wie er die letzten 4 Terme in der letzten Gleichung erhalten hat. (dh die 0, die 0 und die letzten 2 Terme). Ich verstehe alles vorher. Er sagt, er habe die in den obigen Eigenschaften angegebenen Orthogonalitätsbeziehungen ausgenutzt, aber ich verstehe nicht, wie. (Ich verstehe auch die Kleinschreibung hier nicht im Sinne der Verwendung?) $H(v)$

VIELEN DANK!!!!

BEARBEITEN:

Ich habe die Bilder aus dem Buch, das ich gerade lese, hinzugefügt. Es sagt so ziemlich alles, was ich oben gesagt habe, aber nur für den Fall, dass jemand zusätzlichen Kontext benötigt.

Bildbeschreibung hier eingeben

Und hier, rot markiert, ist genau der Teil, der mich verwirrt. Wie verwendet er die Orthogonalitätseigenschaften, um den letzten Teil, in dem sich die Dinge aufheben, und die letzten Summierungen mit ? $c_i^2$

— Spacey
quelle

\log ϕ (x)

$\log \phi(x)$

\neq

$\neq$

@ Kardinal Ok, korrigiert den Tippfehler, danke. Abgesehen davon ist mir nicht klar, wie er die Absage vornimmt. Ich habe die tatsächlichen Bilder übrigens aus dem Buch selbst hinzugefügt.

— Spacey

Ehrlich gesagt habe ich auch keine Ahnung, wie oder warum dies von der Mathe-Site migriert wurde. Ich bin jedenfalls froh, dass es hier ist, wo es auch zu Hause ist. Sie haben viel Mühe in die Frage gesteckt. :-)

— Kardinal

@ Cardinal Es freut mich so sehr, dass Sie das sagen. :-) Ja, hoffentlich macht sich diese Investition in das Selbststudium eines Tages bezahlt. ;-)

— Spacey

Es wird, @Mohammad, es wird! ICA ist auch ein sehr interessantes Thema :-).

— Néstor

$c_i$

c_{i} = \int p_{0} (ξ) G^{i} (ξ) d ξ .

$c_i=\int p_0(\xi)G^i(\xi)d\xi.$

ξ

$\xi$

ξ^{'}

$\xi'$

c_{i}

$c_i$

>> So erhalten Sie die Nullterme:

$\varphi(\xi)=\exp(-\xi^2/2)/\sqrt{2\pi}$ $\log\varphi(\xi)$

Log φ (ξ) = - ξ^{2} / 2 - Log \sqrt{2 π} .

$\log\varphi(\xi)=-\xi^2/2-\log\sqrt{2\pi}.$

c_{ich} \int φ (ξ) G^{ich} (ξ) Log φ (ξ) = - \frac{1}{2} c_{ich} \int φ (ξ) G^{ich} (ξ) ξ^{2} - Log \sqrt{2 π} c_{ich} \int φ (ξ) G^{ich} (ξ), (1)

$c_i\int\varphi(\xi)G^i(\xi)\log \varphi(\xi)=-\frac{1}{2}c_i\int\varphi(\xi)G^i(\xi)\xi^2-\log\sqrt{2\pi}c_i\int\varphi(\xi)G^i(\xi),\ \ \ (1)$ wo ich die Konstanten außerhalb der Integrale fallen gelassen habe.

Von hier aus ist zu beachten, dass in (5.39) angegeben ist, dass $\int \varphi(\xi)F^i(\xi)\xi^k$ ist $0$ zum $k=0,1,2$ . Das Integral im ersten Term rechts von Gl. $(1)$ ist von dieser Form (mit $k=2$ ) und das Integral auch im zweiten Term (mit $k=0$ ). Sie müssen nur diese Tatsache auf den Summen ausnutzen und Sie sind fertig!

>> Um die zu erhalten $\sum c_i^2$ terms:

Note that the integral to be obtained to obtain these terms is:

\int φ (ξ) {(\sum_{i = 1}^{n} c_{i} G^{i} (ξ))}^{2} d ξ .

$\int \varphi(\xi)\left(\sum_{i=1}^{n} c_iG^i(\xi)\right)^2d\xi.$ We can use the multinomial theorem to expand the squared sum. This gives us:

\int φ (ξ) \sum_{k_{1} + k_{2} + . . . k_{n} = 2} \frac{2!}{k_{1}! k_{2}! . . . k_{n}!} \prod_{1 \leq t \leq n} (c_{t} G^{t} (ξ))^{k_{t}} d ξ .

$\int \varphi(\xi)\sum_{k_1+k_2+...k_n=2} \frac{2!}{k_1! k_2!...k_n!}\prod_{1\leq t \leq n}(c_tG^t(\xi))^{k_t}d\xi.$ However, from (5.39) again, note that all the terms in this sum which include integrals for the form

\int φ (ξ) G^{i} (ξ) G^{j} (ξ) d ξ

$\int \varphi(\xi)G^{i}(\xi)G^{j}(\xi)d\xi$ are zero for

i \neq j

$i\neq j$ and one for

i = j

$i=j$ . This leave us with the result

\int φ (ξ) {(\sum c_{i} G^{i} (ξ))}^{2} d ξ = \sum c_{i}^{2} .

$\int \varphi(\xi)\left(\sum c_iG^i(\xi)\right)^2d\xi=\sum c_i^2.$

>> About the $o(\text{whatever})$ notation

I think this is pretty confusing from the authors, but I recall that they use it just to mean that there are terms of order $\text{whatever}$ every time they put $o(\text{whatever})$ (i.e., just like the big-O notation). However, as @Macro commented on this same answer, there is a difference between the big-O notation and the little-O one. Maybe you should check by yourself and see which one suits the problem in this Wikipedia article.

PS: This is a great book by the way. The papers of the authors on the subject are also very good and are a must read if you are trying to understand and implement ICA.

— Néstor
quelle

(+1) Good answer. If the sums are infinite, we have to be more careful about interchanging them with the integral. If they are finite (as the OP suggests, but I did not look at the images closely) then everything is straightforward, as you've shown. :-)

— cardinal

Ah yes! Thank you Nestor, but what about the last two results, that is, the summation with the

c_{i}^{2}

$c_i^2$ , and summation with the small-o notation part?

— Spacey

@cardinal: Oh yes! They ARE finite (I don't know why I wrote they where infinite...). I changed that on my answer.

— Néstor

@Mohammad, I'm writing on my answers your other two questions ;-).

— Néstor

@Néstor, +1 to this answer but re: your last comment, I think there is a distinction between big-O and little-o notation.

— Macro