Warum maximiert PCA die Gesamtvarianz der Projektion?

Christopher Bishop schreibt in seinem Buch Pattern Recognition and Machine Learning einen Beweis dafür, dass jede aufeinanderfolgende Hauptkomponente die Varianz der Projektion auf eine Dimension maximiert, nachdem die Daten in den orthogonalen Raum zu den zuvor ausgewählten Komponenten projiziert wurden. Andere zeigen ähnliche Beweise.

Dies beweist jedoch nur, dass jede aufeinanderfolgende Komponente die beste Projektion auf eine Dimension ist, um die Varianz zu maximieren. Warum bedeutet dies, dass die Varianz einer Projektion auf 5 Dimensionen maximiert wird, indem zuerst solche Komponenten ausgewählt werden?

— michal
quelle

Könnten Sie uns bitte genau sagen, was unter der "Varianz" des fünfdimensionalen Datensatzes zu verstehen ist, die sich aus einer Projektion eines Datensatzes in fünf Dimensionen ergibt? (Damit eine solche Menge

— maximiert werden

Sehr guter Punkt. Chris Bishop bezieht sich in seinem Buch auf die Minimierung der Varianz einer Projektion und es ist nicht sehr klar, was dies für mehr als eine Dimension bedeuten würde. Ich möchte erfahren, in welchem Sinne die Varianz minimiert wird und warum ein solches Verfahren sie gemeinsam minimiert.

— Michael

@ user123675: In deinem letzten Kommentar meinst du wahrscheinlich "Maximieren", nicht "Minimieren".

— Amöbe

Ja, du hast recht. Es tut uns leid!

— Michael

Antworten:

Was unter Varianz in mehreren Dimensionen ("Gesamtvarianz") verstanden wird, ist einfach eine Summe von Varianzen in jeder Dimension. Mathematisch ist es eine Spur der Kovarianzmatrix: Spur ist einfach eine Summe aller diagonalen Elemente. Diese Definition hat verschiedene nette Eigenschaften, z. B. ist die Spur bei orthogonalen linearen Transformationen unveränderlich. Wenn Sie also Ihre Koordinatenachsen drehen, bleibt die Gesamtvarianz gleich.

In Bishops Buch (Abschnitt 12.1.1) wird bewiesen, dass der führende Eigenvektor der Kovarianzmatrix die Richtung der maximalen Varianz angibt. Der zweite Eigenvektor gibt die Richtung der maximalen Varianz unter der zusätzlichen Bedingung an, dass sie orthogonal zum ersten Eigenvektor usw. sein sollte (ich glaube, dies ist die Aufgabe 12.1). Wenn das Ziel darin besteht, die Gesamtvarianz im 2D-Unterraum zu maximieren, ist dieses Verfahren eine gierige Maximierung: Wählen Sie zuerst eine Achse, die die Varianz maximiert, und dann eine andere.

Ihre Frage ist: Warum erhält dieses gierige Verfahren ein globales Maximum?

Hier ist ein nettes Argument, das @whuber in den Kommentaren vorgeschlagen hat. Richten wir zuerst das Koordinatensystem an den PCA-Achsen aus. Die Kovarianzmatrix wird diagonal: . Der Einfachheit halber betrachten wir denselben 2D-Fall, dh was ist die Ebene mit maximaler Gesamtvarianz? Wir wollen beweisen, dass es die Ebene ist, die durch die ersten beiden Basisvektoren gegeben ist (mit Gesamtvarianz ). $\boldsymbol{\Sigma} = \mathrm{diag}(\lambda_i)$ $\lambda_1+\lambda_2$

Stellen Sie sich eine Ebene vor, die von zwei orthogonalen Vektoren und überspannt wird . Die Gesamtvarianz in dieser Ebene istEs handelt sich also um eine lineare Kombination von Eigenwerten mit Koeffizienten, die alle positiv sind, nicht überschreiten (siehe unten) und zu summieren . Wenn ja, dann ist es fast offensichtlich, dass das Maximum bei . $\mathbf{u}$ $\mathbf{v}$

u^{⊤} Σ u + v^{⊤} Σ v = \sum λ_{i} u_{i}^{2} + \sum λ_{i} v_{i}^{2} = \sum λ_{i} (u_{i}^{2} + v_{i}^{2}) .

$\mathbf{u}^\top\boldsymbol{\Sigma}\mathbf{u} + \mathbf{v}^\top\boldsymbol{\Sigma}\mathbf{v} = \sum \lambda_i u_i^2 + \sum \lambda_i v_i^2 = \sum \lambda_i (u_i^2+v_i^2).$

λ_{i}

$\lambda_i$

1

$1$

2

$2$

λ_{1} + λ_{2}

$\lambda_1 + \lambda_2$

Es bleibt nur zu zeigen, dass die Koeffizienten nicht überschreiten dürfen . Beachten Sie, dass , wobei ist der te Basisvektor. Diese Größe ist eine quadratische Länge einer Projektion von auf die Ebene, die von und überspannt wird . Daher muss es kleiner sein als die quadratische Länge von die gleich , QED ist. $1$ $u_k^2+v_k^2 = (\mathbf{u}\cdot\mathbf{k})^2+(\mathbf{v}\cdot\mathbf{k})^2$ $\mathbf{k}$ $k$ $\mathbf k$ $\mathbf u$ $\mathbf v$ $\mathbf k$ $|\mathbf{k}|^2=1$

Siehe auch die Antwort von @ cardinal auf Was ist die Zielfunktion von PCA? (Es folgt der gleichen Logik).

— Amöbe
quelle

(+1) Ist es jedoch nicht intuitiv ersichtlich, dass bei einer Sammlung von Geldbörsen mit verschiedenen Geldbeträgen (Modellierung der nicht negativen Eigenwerte) und einer festen Zahl , die Sie auswählen können, die Auswahl der reichsten Geldbörsen Ihre Gesamtsumme maximiert Kasse? Der Beweis, dass diese Intuition richtig ist, ist fast trivial: Wenn Sie nicht das größte genommen haben, können Sie Ihre Summe verbessern, indem Sie das kleinste, das Sie genommen haben, gegen einen größeren Betrag eintauschen.

k

$k$

k

$k$

k

$k$

— whuber

@amoeba: Wenn das Ziel darin besteht, die Summe der Varianzen und nicht die Varianz der Summe zu maximieren, gibt es keinen Grund dafür, dass die zweite Projektion orthogonal zur ersten ist.

— Innuo

Ich entschuldige mich - ich hatte gedacht, Sie hätten die Analyse bereits so weit entwickelt, dass Sie erkannt haben, dass die Gesamtvarianz in einem dimensionalen Unterraum eine nicht negative lineare Kombination der Eigenwerte ist, bei der keiner der Koeffizienten und überschreiten kann Die Summe der Koeffizienten ist gleich . (Das ist eine Frage einer einfachen Matrixmultiplikation - Lagrange-Multiplikatoren werden nicht benötigt.) Das bringt uns dann zur Metapher der Brieftaschen. Ich bin damit einverstanden, dass eine solche Analyse durchgeführt werden muss.

k

$k$

1

$1$

k

$k$

— whuber

@amoeba: Ich meine, wir betrachten das Problem in der Basis, die aus Eigenvektoren besteht (dies ist die Basis von u und v, wenn wir ihre Varianz durch Multiplikation mit der diagonalen Kovarianzmatrix berechnen). u und v werden sich am Ende als sie herausstellen, aber im Stadium dieses Beweises sollten wir das nicht annehmen, denke ich. Sollte das Argument nicht eher sein, dass, wenn zu irgendeinem Zeitpunkt die Summe größer als 1 wäre, die 2 Vektoren nicht mehr orthogonal wären, da die Basis orthogonal ist und jeder der Vektoren höchstens 1 bringt? Aber warum beschränken wir uns auf orthogonale Vektoren u und v?

— Michael

@ Heisenberg: Ah, ich verstehe! Nein, das habe ich natürlich nicht so gemeint! Aber ich verstehe jetzt, warum es verwirrend war. Ich habe diesen letzten Teil des Beweises umgeschrieben, um diesen Schritt "Auswahl einer Basis" loszuwerden. Bitte sehen Sie meine Bearbeitung. Vielen Dank.

— Amöbe

Wenn Sie unkorrelierte Zufallsvariablen in absteigender Reihenfolge ihrer Varianz sortiert haben und aufgefordert wurden, davon so zu wählen, dass die Varianz ihrer Summe maximiert wird, würden Sie zustimmen, dass der gierige Ansatz, das erste auszuwählen , dies erreichen würde? $N$ $k$ $k$

Die auf die Eigenvektoren ihrer Kovarianzmatrix projizierten Daten sind im Wesentlichen unkorrelierte Datenspalten, deren Varianz den jeweiligen Eigenwerten entspricht. $N$

Damit die Intuition klarer wird, müssen wir die Varianzmaximierung mit der Berechnung des Eigenvektors der Kovarianzmatrix mit dem größten Eigenwert in Beziehung setzen und die orthogonale Projektion mit dem Entfernen von Korrelationen in Beziehung setzen.

Die zweite Beziehung ist mir klar, weil der Korrelationskoeffizient zwischen zwei (Mittelwert Null) Vektoren proportional zu ihrem inneren Produkt ist.

Die Beziehung zwischen der Maximierung der Varianz und der Eigenzerlegung der Kovarianzmatrix ist wie folgt.

Angenommen, ist die Datenmatrix nach dem Zentrieren der Spalten. Wir müssen die Richtung der maximalen Varianz finden. Für jeden Einheitsvektor , die Varianz nach Projizieren entlang ist $D$ $v$ $v$

$E[(Dv)^t Dv] = v^t E[D^tD] v = v^t Cov(D) v$

Dies wird maximiert, wenn der Eigenvektor von , der dem größten Eigenwert entspricht. $v$ $Cov(D)$

— Innuo
quelle

Die ursprüngliche Frage lautet vielmehr: Wählen Sie orthogonale lineare Kombinationen von ihnen (im Gegensatz zu von ihnen), so dass die Summe ihrer Varianzen maximiert wird. Ist es immer noch offensichtlich, dass der gierige Ansatz, das erste auszuwählen, dies erreicht?

k

$k$

k

$k$

k

$k$

— Amöbe

Das Finden von orthogonalen Linearkombinationen und das anschließende Auswählen der ersten Variante davon beschreibt der Prozess (lose). Meine Antwort behauptet nur, dass Orthogonalität ausreicht, damit der gierige Prozess das Ziel der Maximierung der Gesamtvarianz erreicht.

N

$N$

k

$k$

— Innuo

Ich bin mir nicht sicher, ob ich dem Argument folge. Wie ist die Orthogonalität wichtig? Wenn Sie Variablen haben und mit der höchsten Gesamtvarianz auswählen müssen , sollten Sie mit der höchsten Varianz auswählen (unabhängig davon, ob sie korreliert sind oder nicht).

N

$N$

k

$k$

k

$k$

— Amöbe

Ah, ich verstehe die Verwirrung. In meiner Antwort war ein Tippfehler. Jetzt behoben.

— Innuo

Ich denke, Sie haben hier vielleicht etwas vor, aber das magische Erscheinungsbild der Summe muss erklärt werden. Welche Relevanz hat das für PCA oder sogar für spektrale Zerlegungen?

— whuber