Was bedeutet PCA, wenn nur große paarweise Abstände beibehalten werden?


10

Ich lese gerade über die t-SNE-Visualisierungstechnik und es wurde erwähnt, dass einer der Nachteile der Verwendung der Hauptkomponentenanalyse (PCA) zur Visualisierung hochdimensionaler Daten darin besteht, dass nur große paarweise Abstände zwischen den Punkten beibehalten werden. Bedeutungspunkte, die im hochdimensionalen Raum weit voneinander entfernt sind, würden auch im niedrigdimensionalen Unterraum weit voneinander entfernt erscheinen, aber ansonsten würden alle anderen paarweisen Abstände durcheinander geraten.

Könnte mir jemand helfen zu verstehen, warum das so ist und was es grafisch bedeutet?


PCA ist eng verwandt mit euklidischen und Mahalanobis-Entfernungen, die in höheren Dimensionen kurzsichtig sind und keine kleinen Entfernungen erkennen können.
Aksakal

Beachten Sie auch , dass PCA, wie einfachste Metrik MDS gesehen, etwa ist summierten Rekonstruktion squared euklidischen Distanzen. Hense, Präzision für kleine Entfernungen leidet.
ttnphns

Antworten:


8

Betrachten Sie den folgenden Datensatz:

PCA-Datensatz

Die PC1-Achse maximiert die Varianz der Projektion. In diesem Fall geht es also offensichtlich diagonal von links unten nach rechts oben:

PCA behält nur große paarweise Abstände bei

Der größte paarweise Abstand im Originaldatensatz liegt zwischen diesen beiden Außenpunkten. Beachten Sie, dass es im PC1 fast genau erhalten bleibt. Kleinere, aber immer noch erhebliche paarweise Abstände liegen zwischen jedem der äußeren Punkte und allen anderen Punkten; diese sind auch einigermaßen gut erhalten. Wenn Sie sich jedoch die noch kleineren paarweisen Abstände zwischen den Punkten im zentralen Cluster ansehen, werden Sie feststellen, dass einige von ihnen stark verzerrt sind.

Ich denke, das gibt die richtige Intuition: PCA findet einen niedrigdimensionalen Unterraum mit maximaler Varianz. Maximale Varianz bedeutet, dass der Unterraum tendenziell so ausgerichtet ist, dass er sich den weit vom Zentrum entfernten Punkten nähert. Daher bleiben die größten paarweisen Abstände gut erhalten, die kleineren weniger.

1010×1010×10in der Tat am besten genau von PC1 erhalten (siehe meine Antwort dort für den Beweis). Und man kann argumentieren, dass große paarweise Abstände normalerweise auch große Skalarprodukte bedeuten; Tatsächlich ist einer der MDS-Algorithmen (klassisches / Torgerson-MDS) bereit, diese Annahme explizit zu treffen.

Um es zusammenzufassen:

  1. PCA zielt darauf ab, die Matrix paarweiser Skalarprodukte in dem Sinne zu erhalten, dass die Summe der quadratischen Unterschiede zwischen den ursprünglichen und rekonstruierten Skalarprodukten minimal sein sollte.
  2. Dies bedeutet, dass die skalaren Produkte mit dem größten absoluten Wert eher erhalten bleiben und diejenigen mit kleinem absoluten Wert weniger berücksichtigt werden, da sie weniger zur Summe der quadratischen Fehler beitragen.
  3. Daher bewahrt PCA größere Skalarprodukte besser als die kleineren.
  4. Paarweise Abstände bleiben nur so weit erhalten, wie sie den Skalarprodukten ähnlich sind, was häufig, aber nicht immer der Fall ist. Wenn dies der Fall ist, bleiben auch größere paarweise Abstände besser erhalten als kleinere.

Ich denke nicht, dass dies ein richtiges Bild ist. Es zeigt nicht, wie es mit zunehmender Dimensionalität schlimmer wird
Aksakal

2
Ich bin nicht sicher, ob ich Ihren Standpunkt verstehe, @Aksakal. Erwägen Sie, eine alternative Antwort aus Ihrer Sicht zu veröffentlichen. Ich denke, der Effekt, größere als kleinere paarweise Abstände besser zu erhalten, ist bereits in 2D vorhanden, und man muss nicht über hohe Dimensionalität nachdenken, um zu verstehen, was vor sich geht. Daher habe ich mich auf ein einfaches 2D-Beispiel konzentriert.
Amöbe sagt Reinstate Monica

Was Sie gezeichnet haben, ist auf jede Methode anwendbar. Ich kann ein paar Punkte sehr weit weg setzen und argumentieren, dass sie den Rest überwiegen. Das Problem mit euklidischen Abständen ist, dass ihr dynamischer Bereich mit zunehmender Dimensionalität
kleiner wird

+1, aber ich würde einen Akzent verschieben, etwas anders als Sie (Punkt 4 meistens). Die Sache ist nicht, dass dies Abstände und skalare Produkte sind (die "Doppelzentrierungs" -Matrix) - schließlich behalten sie angesichts der Diagonale identische Informationen bei. Vielmehr ist das Problem genau analog zu den PCA-gegen-Faktor-Analysequoten. Torgersons PCoA als PCA zielt darauf ab, die Rekonstruktion des sc zu maximieren. prod. Matrix meistens über ihre Diagonale, ohne speziell zu steuern, wie die nicht diagonalen Einträge angepasst werden.
ttnphns

(Forts.) Die Spur der genannten Diagonale ist die Gesamtvariabilität und steht in direktem Zusammenhang mit der Summe aller quadratischen paarweisen Abstände, wobei einzelne Abstände zurückbleiben. Es könnte auch mit dem Eckart-Young-Theorem formuliert werden, das besagt, dass die PCA-rekonstruierte Datenwolke der Summe der Quadrate am nächsten kommt; Das heißt, der quadratische Gesamtabstand zwischen den alten Punkten und ihren PCA-projizierten Punkten ist minimal. Dies ist nicht dasselbe wie alte paarweise Entfernungen - neue pw-Entfernungsrelationen.
ttnphns
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.