Wenn die Vektoren orthogonal sind, können Sie einfach die Varianz der skalaren Projektion der Daten auf jeden Vektor nehmen. Angenommen, wir haben eine Datenmatrix ( Punkte x Dimensionen) und einen Satz orthonormaler Spaltenvektoren . Angenommen, die Daten sind zentriert. Die Varianz der Daten entlang der Richtung jedes Vektors ist durch .n d { v 1 , . . . , v k } v i Var ( X v i )Xnd{v1,...,vk}viVar(Xvi)
Wenn es so viele Vektoren wie die ursprünglichen Dimensionen gibt ( ), entspricht die Summe der Varianzen der Projektionen der Summe der Varianzen entlang der ursprünglichen Dimensionen. Wenn jedoch weniger Vektoren als die ursprünglichen Dimensionen vorhanden sind ( ), ist die Summe der Varianzen im Allgemeinen geringer als bei PCA. Eine Möglichkeit, sich PCA vorzustellen, besteht darin, genau diese Größe zu maximieren (unter der Bedingung, dass die Vektoren orthogonal sind).k < dk=dk<d
Möglicherweise möchten Sie auch (den erklärten Varianzanteil) berechnen , der häufig verwendet wird, um zu messen, wie gut eine bestimmte Anzahl von PCA-Dimensionen die Daten darstellt. Es sei die Summe der Varianzen entlang jeder ursprünglichen Dimension der Daten. Dann: S.R2S
R2=1S∑i=1kVar(Xvi)
Dies ist nur das Verhältnis der summierten Varianzen der Projektionen und der summierten Varianzen entlang der ursprünglichen Dimensionen.
Eine andere Möglichkeit, über nachzudenken , besteht darin, die Anpassungsgüte zu messen, wenn wir versuchen, die Daten aus den Projektionen zu rekonstruieren. Es nimmt dann die bekannte Form an, die für andere Modelle verwendet wird (z. B. Regression). Angenommen, der te Datenpunkt ist ein Zeilenvektor . Speichern von jeder der Basisvektoren entlang der Spalten der Matrix . Die Projektion des - ten Datenpunktes auf alle Vektoren in ist gegeben durch . Wenn es weniger Vektoren als die ursprünglichen Dimensionen gibt ( i x ( i ) V i V p ( i ) = x ( i ) V k < d x ( i ) = p ( i ) V TR2ix(i)ViVp(i)=x(i)Vk<d) können wir uns dies als lineare Abbildung der Daten in einen Raum mit reduzierter Dimensionalität vorstellen. Wir können etwa den Datenpunkt von der niedrigen dimensionalen Darstellung durch Mapping wieder in den ursprünglichen Datenraum rekonstruieren: . Der mittlere quadratische Rekonstruktionsfehler ist der mittlere quadratische euklidische Abstand zwischen jedem ursprünglichen Datenpunkt und seiner Rekonstruktion:x^(i)=p(i)VT
E=1n∥x(i)−x^(i)∥2
Die Güte der Anpassung wird auf die gleiche Weise wie bei anderen Modellen definiert (dh als eins minus dem Bruchteil der ungeklärten Varianz). Angesichts des mittleren quadratischen Fehlers des Modells ( ) und der Gesamtvarianz der modellierten Menge ( ) ist . Im Kontext unserer Datenrekonstruktion ist der mittlere quadratische Fehler (der Rekonstruktionsfehler). Die Gesamtvarianz ist (die Summe der Varianzen entlang jeder Dimension der Daten). Damit:R2MSEVartotalR2=1−MSE/VartotalES
R2=1−ES
S ist auch gleich dem mittleren quadratischen euklidischen Abstand von jedem Datenpunkt zum Mittelwert aller Datenpunkte, so dass wir uns als Vergleich des Rekonstruktionsfehlers mit dem des 'Worst-Case-Modells' vorstellen können, das immer das zurückgibt meine wie die Rekonstruktion.R2
Die beiden Ausdrücke für sind äquivalent. Wie oben ist eins , wenn es so viele Vektoren wie die ursprünglichen Dimensionen gibt ( ) . Wenn jedoch , ist im Allgemeinen kleiner als für PCA. Eine andere Möglichkeit, über PCA nachzudenken, besteht darin, den quadratischen Rekonstruktionsfehler zu minimieren.R2k=dR2k<dR2