PCA-Zielfunktion: Welcher Zusammenhang besteht zwischen Maximierung der Varianz und Minimierung des Fehlers?


31

Der PCA-Algorithmus kann anhand der Korrelationsmatrix formuliert werden (vorausgesetzt, die Daten bereits normalisiert und es wird nur die Projektion auf den ersten PC in Betracht gezogen). Die Zielfunktion kann wie folgt geschrieben werden:X

maxw(Xw)T(Xw)s.t.wTw=1.

Dies ist in Ordnung, und wir verwenden Lagrange-Multiplikatoren, um es zu lösen, dh umzuschreiben als:

maxw[(Xw)T(Xw)λwTw],

das ist äquivalent zu

maxw(Xw)T(Xw)wTw,

und daher ( siehe hier auf Mathworld ) scheint

maxwi=1n(distance from point xi to line w)2.

Dies bedeutet jedoch, dass der Abstand zwischen Punkt und Linie maximiert werden soll, und nach dem, was ich hier gelesen habe , ist dies falsch - es sollte min , nicht max . Wo ist mein Fehler?

Oder kann mir jemand den Zusammenhang zwischen der Maximierung der Varianz im projizierten Raum und der Minimierung des Abstands zwischen Punkt und Linie zeigen?


Ich denke, der Mindestabstand wird verwendet, um das Kriterium der Orthogonalität für die Komponenten zu erfüllen. Die Punkte werden orthogonal zueinander in die PCs projiziert, wobei jedoch in jeder nachfolgenden Komponente die verbleibende Varianz maximiert wird.
Michael R. Chernick

Hinweis: Was passiert, wenn Sie zuerst den kleinsten Eigenwert und nicht den größten betrachten?
Whuber

@whuber Der kleinste Eigenwert hat wahrscheinlich den PC, der die Lösung für die endgültige Zielfunktion darstellt. Dieser PC maximiert jedoch nicht die ursprüngliche Objektivfunktion.
Cam.Davidson.Pilon

2
Ich bin mir nicht sicher, was du mit "endgültiger" und "ursprünglicher" Objektivfunktion meinst, Cam. PCA ist kein (konzeptionelles) Optimierungsprogramm. Seine Ausgabe ist eine Reihe von Hauptrichtungen, nicht nur eine. Es ist ein (interessanter) mathematischer Satz, dass diese Richtungen durch Lösen einer Folge von beschränkten quadratischen Programmen gefunden werden können, aber das ist nicht grundlegend für die Konzepte oder die Praxis von PCA. Ich schlage nur vor, dass Sie, indem Sie sich auf den kleinsten Eigenwert anstatt auf den größten konzentrieren, die beiden Ideen der (1) Minimierung von Entfernungen und (2) Einnahme einer Optimierungsansicht von PCA in Einklang bringen können.
Whuber

1
Das ist in Ordnung - Ihre Antwort war die fehlerfreie Version dessen, was ich versuchte zu tun.
Cam.Davidson.Pilon

Antworten:


41

Let eine zentrierte Datenmatrix mit seiner Beobachtungen in Reihen. Sei seine Kovarianzmatrix. Sei ein Einheitsvektor, der eine Achse im Variablenraum angibt. Wir wollen, dass die erste Hauptachse ist.XnΣ=XX/(n1)ww

Gemäß dem ersten Ansatz maximiert die erste Hauptachse die Varianz der Projektion (Varianz der ersten Hauptkomponente). Diese Varianz ist gegeben durchXw

Var(Xw)=wXXw/(n1)=wΣw.

Gemäß dem zweiten Ansatz minimiert die erste Hauptachse den Rekonstruktionsfehler zwischen und seiner Rekonstruktion , dh die Summe der quadratischen Abstände zwischen den ursprünglichen Punkten und ihren Projektionen auf . Das Quadrat des Rekonstruktionsfehlers ergibt sich aus XXwww

XXww2=tr((XXww)(XXww))=tr((XXww)(XwwX))=tr(XX)2tr(XwwX)+tr(XwwwwX)=consttr(XwwX)=consttr(wXXw)=constconstwΣw.

Beachten Sie das Minuszeichen vor dem Hauptbegriff. Aus diesem Grund läuft das Minimieren des Rekonstruktionsfehlers darauf hinaus, , also die Varianz, zu maximieren . Die Minimierung des Rekonstruktionsfehlers entspricht also der Maximierung der Varianz. beide Formulierungen ergeben das gleiche .wΣww


Etwas , das ich bemerkte, ist nicht eine konvexe Funktion (in Bezug auf als PSD ist , wie kommen wir versuchen , es zu maximieren?wTΣwwΣ
Royi

@amoeba kannst du erklären, wie du im letzten Schritt von tr () zu const kommst?
Alberto

1
@alberto Was sich in der Spur befindet, ist eine Zahl (1x1-Matrix); Eine Spur einer Zahl ist diese Zahl selbst, sodass die Spur entfernt werden kann. Die Konstante erscheint, weil gleich , also gibt es diesen Faktor. ΣXX/n1/n
Amöbe sagt Reinstate Monica

1
@Leullame Die Berechnung gilt wörtlich für wenn es sich um eine Matrix mit orthonormalen Spalten handelt. Sie benötigen , um von Zeile 3 zu Zeile 4 zu wechseln. Wenn die Matrix orthonormale Spalten hat, ist tatsächlich eine Projektion von auf den durch die Spalten von Unterraum (hier ist ein Zeilenvektor). WWW=IWxWWxWx
Amöbe sagt Reinstate Monica

1
@ DanielLópez Nun, wir suchen nach einem eindimensionalen Subraum, der den Rekonstruktionsfehler minimiert. Ein eindimensionaler Unterraum kann durch einen Einheitsnormvektor definiert werden, der in seine Richtung zeigt, als was wird. Es hat eine Einheitsnorm von der Konstruktion. w
Amöbe sagt Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.