Was bedeutet "PCA (Principal Component Analysis) Sphären der Daten"?

Ich habe einige Notizen gelesen und es heißt, dass PCA "die Daten kugeln" kann. Was sie für mich als "Sphärieren der Daten" definieren, ist das Teilen jeder Dimension durch die Quadratwurzel des entsprechenden Eigenwerts.

Ich gehe davon aus, dass mit "Dimension" jeder Basisvektor gemeint ist, in den wir projizieren (dh die Eigenvektoren, auf die wir projizieren). Also denke ich, dass sie tun:

u_{i}^{^{'}} = \frac{u_{i}}{\sqrt{e i g e n V a l u e (u_{i})}}

$u^{'}_i= \frac{u_i}{\sqrt{eigenValue(u_i)}}$

Dabei ist einer der Eigenvektoren (dh eine der Hauptkomponenten). Dann gehe ich mit diesem neuen Vektor davon aus, dass sie die Rohdaten projizieren, die wir haben, sagen wir bis . Die projizierten Punkte wären nun: $u_i$ $x^{(i)}$ $z^{(i)}$

z^{' (i)} = u_{i}^{^{'}} \cdot x^{(i)}

$z'^{(i)} = u^{'}_i \cdot x^{(i)}$

Sie behaupten, dass dies sicherstellt, dass alle Merkmale die gleiche Varianz haben.

Ich bin mir jedoch nicht einmal sicher, ob meine Interpretation dessen, was sie unter Kugel verstehen, richtig ist, und wollte überprüfen, ob dies der Fall ist. Auch wenn es richtig war, was bringt es, so etwas zu tun? Ich weiß, dass sie behaupten, dass es sicherstellt, dass jeder die gleiche Varianz hat, aber warum sollten wir das tun und wie wird dies erreicht?

pca

— Pinocchio
quelle

Was Sie sagen, ist richtig. uist der Wert der Eigenvektoren und bezieht sich auf rohe PC-Werte. u'wird als Laden bezeichnet und bezieht sich auf die normalisierten PC-Werte (gleiche Varianzen). Vielleicht möchten Sie meine Antwort dazu lesen: stats.stackexchange.com/a/35653/3277 .

— ttnphns

Mit anderen Worten, Sie können rohe PC-Werte berechnen und diese dann auf gleiche (Einheits-) Varianz standardisieren. Um das gleiche Ergebnis zu erzielen, können Sie zuerst die Belastungen berechnen und dann mit deren Hilfe die PC-Werte berechnen.

— ttnphns

Verwandter Thread: Hauptkomponentenanalyse und Varianznormalisierung .

— Amöbe

Für das, was es wert ist, würden die meisten Leute diese Verwendung von 'Kugel' als Verb nicht als sehr guten englischen Stil betrachten, selbst wenn es verständlich ist.

— nekomatisch

Ihr Verständnis ist richtig. Schauen Sie sich diese Abbildung an, die verschiedene Möglichkeiten Ihrer Datenpunkte darstellt: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Sie sehen ellipsoid aus. Wenn Sie das tun, was Sie oben beschrieben haben, dh die Punkte in der Richtung komprimieren, in der sie am stärksten verteilt sind (ungefähr die 45-Grad-Linie im Bild), liegen die Punkte in einem Kreis (Kugel in höheren Dimensionen).

$y$ $x_1$ $x_2$ $\beta_1$ $\beta_2$ $y\sim \beta_1 x_1+\beta_2x_2$ $x_1$ $x_2$ $\beta_1=1$ $\beta_2=10$ $x_2$ $y$ $x_1$ $x_1$ $x_2$ $\beta_1$ $\beta_2$ $y$

— Elexhobby
quelle