Warum ist PCA für Ausreißer empfindlich?


26

Es gibt viele Beiträge zu dieser SE, in denen robuste Ansätze für die Hauptkomponentenanalyse (PCA) erörtert werden, aber ich kann keine gute Erklärung dafür finden, warum PCA überhaupt empfindlich gegenüber Ausreißern ist.


5
Weil der Beitrag der L2-Norm für Ausreißer sehr hoch ist. Wenn Sie dann die L2-Norm minimieren (was PCA versucht), werden diese Punkte stärker aneinander angepasst als Punkte, die näher an der Mitte liegen.
Kathreadler

Diese Antwort sagt Ihnen alles, was Sie brauchen. Stellen Sie sich einfach einen Ausreißer vor und lesen Sie aufmerksam.
S. Kolassa - Wiedereinsetzung von Monica

Antworten:


35

Einer der Gründe ist, dass PCA als eine niedrigrangige Zerlegung der Daten angesehen werden kann, die die Summe der L2 -Normen der Reste der Zerlegung minimiert . Das heißt , wenn Y. ist , die Daten ( m Vektoren von n Dimensionen), und X ist die PCA - Basis ( k Vektoren von n Dimensionen), dann wird die Zersetzung streng minimiert

Y.-XEINF2=j=1mY.j-XEINj.2
Hier EIN die Matrix der Koeffizienten der PCA - Zerlegung und F ist eine Frobenius - Norm der Matrix

Da die PCA die L2 -Normen (dh quadratische Normen) minimiert, gibt es die gleichen Probleme wie bei den kleinsten Quadraten oder bei der Anpassung eines Gaußschen durch Empfindlichkeit gegenüber Ausreißern. Aufgrund der Quadratur der Abweichungen von den Ausreißern dominieren sie die Gesamtnorm und steuern daher die PCA-Komponenten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.