Warum verwendet probabilistische PCA Gaußsche Priorität gegenüber latenten Variablen?

Ich lese gerade Artikel über probabilistische PCA und frage mich, warum der Gaußsche Prior (und nicht irgendein anderer Prior) für die latenten Variablen ausgewählt wurde. Ist es nur, weil es einfach ist oder gibt es einen anderen Grund?

Verweise:

Tipping & Bishop, 1999, Probabilistische Hauptkomponentenanalyse - knapp unter Gl. (2)
Tipping & Bishop, 1999, Mischungen probabilistischer Hauptkomponentenanalysatoren - Gl. (4)

— Irminsul
quelle

Probabilistische PCA

Probabilistische PCA ist ein latentes Gaußsches Variablenmodell der folgenden Form. Beobachtungen bestehen aus Variablen, latente Variablen bestehen vermutlich aus Variablen; Der Prior gegenüber latenten Variablen ist ein Gaußscher Mittelwert der Einheitskovarianz von Null: und die bedingte Verteilung der beobachteten Variablen unter Berücksichtigung der latenten Variablen ist Es stellt sich heraus, dass die Maximum-Likelihood-Lösung für dieses Modell durch die ersten PCA-Komponenten der Daten gegeben ist: Spalten von $\mathbf x \in \mathbb R^D$ $D$ $\mathbf z \in \mathbb R^M$ $M<D$

z \sim N (0, I),

$\mathbf z \sim \mathcal N(\mathbf 0, \mathbf I),$

x | z \sim N (W z + μ, σ^{2} I) .

$\mathbf x | \mathbf z \sim \mathcal N(\mathbf W\mathbf z+\boldsymbol \mu, \sigma^2 \mathbf I).$

M

$M$

W_{ML}

$\mathbf W_\text{ML}$ sind proportional zu den oberen Eigenvektoren der Kovarianzmatrix (Hauptachsen). Siehe Tipping & Bishop für Details.

Warum Gauß vor verwenden?

Für alle anderen früheren (oder zumindest für die meisten anderen Prioritäten) entspricht die Maximum-Likelihood-Lösung nicht der Standard-PCA-Lösung, sodass es keinen Grund gibt, dieses latente Variablenmodell als "probabilistische PCA" zu bezeichnen. Gaußscher Prior ist derjenige, der zu PCA führt. $\mathcal N(\mathbf 0, \mathbf I)$
Die meisten anderen Prioritäten würden das Problem viel komplizierter oder sogar analytisch unlösbarer machen. Eine Gaußsche Prior- und Gaußsche bedingte Verteilung führt zu einer Gaußschen Randverteilung , und es ist leicht zu erkennen, dass ihre Kovarianzmatrix durch . Nicht-Gaußsche Verteilungen sind viel schwieriger zu bearbeiten. $p(\mathbf x)$ $\mathbf W^\top \mathbf W + \sigma^2\mathbf I$
Eine Gaußsche Randverteilung ist ebenfalls attraktiv, da die Aufgabe der Standard-PCA darin besteht, die Kovarianzmatrix (dh den zweiten Moment) zu modellieren; PCA ist nicht an höheren Momenten der Datenverteilung interessiert. Die Gaußsche Verteilung wird vollständig durch die ersten beiden Momente beschrieben: Mittelwert und Kovarianz. Wir möchten keine komplizierteren / flexibleren Distributionen verwenden, da PCA diese Aspekte der Daten nicht behandelt. $p(\mathbf x)$
Der Gaußsche Prior hat eine Einheitskovarianzmatrix, weil die Idee darin besteht, unkorrelierte latente Variablen zu haben, die die beobachteten Kovarianzen nur über Ladungen . $\mathbf W$

— Amöbe
quelle

Vielen Dank ! Es ist wirklich klar! Für den ersten Punkt stimme ich zu, aber es scheint eine Antwort auf die Frage zu sein, warum dieses Modell PPCA heißt. Die Punkte 2 bis 4 sind genau das, was ich erwartet hatte. Ich hätte die Frage in "Was sind die Vorteile eines Gaußschen Prior?"

— Irminsul