Warum ist PCA für Ausreißer empfindlich?

Es gibt viele Beiträge zu dieser SE, in denen robuste Ansätze für die Hauptkomponentenanalyse (PCA) erörtert werden, aber ich kann keine gute Erklärung dafür finden, warum PCA überhaupt empfindlich gegenüber Ausreißern ist.

machine-learning pca outliers

— Psi
quelle

Weil der Beitrag der L2-Norm für Ausreißer sehr hoch ist. Wenn Sie dann die L2-Norm minimieren (was PCA versucht), werden diese Punkte stärker aneinander angepasst als Punkte, die näher an der Mitte liegen.

— Kathreadler

Diese Antwort sagt Ihnen alles, was Sie brauchen. Stellen Sie sich einfach einen Ausreißer vor und lesen Sie aufmerksam.

— S. Kolassa - Wiedereinsetzung von Monica

Einer der Gründe ist, dass PCA als eine niedrigrangige Zerlegung der Daten angesehen werden kann, die die Summe der $L_2$ -Normen der Reste der Zerlegung minimiert . Das heißt , wenn $Y$ ist , die Daten ( $m$ Vektoren von $n$ Dimensionen), und $X$ ist die PCA - Basis ( $k$ Vektoren von $n$ Dimensionen), dann wird die Zersetzung streng minimiert

‖ Y. - X EIN ‖_{F}^{2} = \sum_{j = 1}^{m} ‖ {Y.}_{j} - X {EIN}_{j .} ‖^{2}

$\lVert Y-XA \rVert^2_F = \sum_{j=1}^{m} \lVert Y_j - X A_{j.} \rVert^2$ Hier

A

$A$ die Matrix der Koeffizienten der PCA - Zerlegung und

‖ \cdot ‖_{F}

$\lVert \cdot \rVert_F$ ist eine Frobenius - Norm der Matrix

Da die PCA die $L_2$ -Normen (dh quadratische Normen) minimiert, gibt es die gleichen Probleme wie bei den kleinsten Quadraten oder bei der Anpassung eines Gaußschen durch Empfindlichkeit gegenüber Ausreißern. Aufgrund der Quadratur der Abweichungen von den Ausreißern dominieren sie die Gesamtnorm und steuern daher die PCA-Komponenten.

— sega_sai
quelle