Es gibt viele verschiedene Möglichkeiten, einen PCA-Biplot zu erstellen. Daher gibt es keine eindeutige Antwort auf Ihre Frage. Hier ist eine kurze Übersicht.
Wir gehen davon aus, dass die Datenmatrix hat n Datenpunkte in Reihen und zentriert ist (dh Spalte Mittel sind alle null). Vorerst können wir nicht davon ausgehen , dass es standardisiert, dh wir betrachten PCA auf Kovarianzmatrix (nicht auf Korrelationsmatrix). PCA entspricht einer Singulärwertzerlegung X = U S VXn meine Antwort finden Sie hier für Details:Beziehung zwischen SVD und PCA. Wie verwende ich SVD, um PCA durchzuführen?
X = U S V⊤,
In einem PCA-Biplot sind zwei erste Hauptkomponenten als Streudiagramm aufgetragen, dh die erste Spalte von ist gegen die zweite Spalte aufgetragen. Normalisierung kann aber auch anders sein; zB kann man benutzen:U
- Spalten von : Dies sind Hauptkomponenten, die auf die Einheitssumme der Quadrate skaliert sind.U
- Spalten von : Dies sind standardisierte Hauptkomponenten (Einheitsvarianz);n - 1-----√U
- Spalten von : das sind „raw“ Hauptkomponenten (Projektionen auf Hauptrichtungen).U S
Ferner sind Originalvariablen als Pfeile dargestellt; dh Koordinaten eines i- ten Pfeilendpunkts werden durch den i- ten Wert in der ersten und zweiten Spalte von gegeben( x , y)ichich . Aber auch hier kann man verschiedene Normalisierungen wählen, zB:V
- Spalten von : Ich weiß nicht, was eine Interpretation hier sein könnte;V S
- Spalten von : das sind Ladungen;V S / n - 1-----√
- Spalten von : Dies sind Hauptachsen (aka Hauptrichtungen, aka Eigenvektoren).V
So sieht das alles für den Fisher Iris-Datensatz aus:
9XU SαβV S( 1 - α )/ β9 sind "richtige Biplots": nämlich eine Kombination eines Unterplots von oben mit dem direkt darunter.
[Unabhängig von der verwendeten Kombination kann es erforderlich sein, die Pfeile mit einem beliebigen konstanten Faktor zu skalieren, sodass sowohl die Pfeile als auch die Datenpunkte ungefähr auf derselben Skala angezeigt werden.]
VS/n−1−−−−−√Un−1−−−−−√
Diese [besondere Wahl] dürfte eine äußerst nützliche grafische Hilfe bei der Interpretation multivariater Beobachtungsmatrizen darstellen, vorausgesetzt natürlich, dass diese auf Rang zwei angemessen angenähert werden können.
USV .
US Visualisierung einer Million, PCA-Ausgabe - es zeigt PCA des Wein-Datensatzes.
biplot
UVSbiplot
0.8biplot
n/(n−1)1Pfeile der zugrunde liegenden Variablen im PCA-Biplot in R. )
PCA auf Korrelationsmatrix
X1
1R=1
Weitere Lektüre: