Was ist der Unterschied zwischen der Hauptkomponentenanalyse und der mehrdimensionalen Skalierung?

133

Wie unterscheiden sich PCA und klassisches MDS? Wie wäre es mit MDS im Vergleich zu nichtmetrischem MDS? Gibt es eine Zeit, in der Sie eine der anderen vorziehen würden? Wie unterscheiden sich die Interpretationen?

pca multidimensional-scaling pcoa

— Stephen Turner
quelle

96

Die klassische Torgerson -Metrik MDS wird tatsächlich durchgeführt, indem Entfernungen in Ähnlichkeiten transformiert werden und PCA (Eigenzerlegung oder Singularwertzerlegung) an diesen durchgeführt werden. [Der andere Name dieser Prozedur ( distances between objects -> similarities between them -> PCAwobei das Laden die gesuchten Koordinaten sind) ist Principal Coordinate Analysis oder PCoA .] Daher könnte PCA der Algorithmus des einfachsten MDS genannt werden.

Nichtmetrisches MDS basiert auf dem iterativen ALSCAL- oder PROXSCAL-Algorithmus (oder einem ähnlichen Algorithmus), der eine vielseitigere Zuordnungstechnik als PCA darstellt und auch auf metrisches MDS angewendet werden kann. Während PCA behält m wichtige Dimensionen für Sie, ALSCAL / PROXSCAL passt Konfiguration m Abmessungen (Sie vordefinieren m ) und es reproduziert Unterschiedlichkeiten auf der Karte direkter und genauer als PCA in der Regel kann (Abbildung Abschnitt weiter unten).

Daher befinden sich MDS und PCA wahrscheinlich nicht auf dem gleichen Niveau, um in einer Linie zu stehen oder sich gegenüber zu stehen. PCA ist nur eine Methode, während MDS eine Analyseklasse ist. Als Mapping ist PCA ein besonderer Fall von MDS. Auf der anderen Seite ist PCA ein besonderer Fall der Faktoranalyse, bei der es sich bei einer Datenreduktion um mehr als nur eine Zuordnung handelt, während MDS nur eine Zuordnung ist.

Bezüglich Ihrer Frage zu metrischem MDS im Vergleich zu nicht metrischem MDS gibt es wenig zu kommentieren, da die Antwort einfach ist. Wenn ich glaube, dass meine Eingabeunterschiede so nahe beieinander liegen, dass eine lineare Transformation ausreicht, um sie im m-dimensionalen Raum abzubilden, bevorzuge ich metrische MDS. Wenn ich nicht glaube, ist eine monotone Transformation erforderlich, die die Verwendung eines nichtmetrischen MDS impliziert.

Eine Anmerkung zur Terminologie für einen Leser. Der Begriff Classic (al) MDS (CMDS) kann in einer umfangreichen Literatur zu MDS zwei verschiedene Bedeutungen haben, daher ist er nicht eindeutig und sollte vermieden werden. Eine Definition ist, dass CMDS ein Synonym für Torgersons metrisches MDS ist. Eine andere Definition ist, dass CMDS ein beliebiges MDS (durch einen beliebigen Algorithmus; metrische oder nichtmetrische Analyse) mit Einzelmatrix- Eingabe ist (da es Modelle gibt, die viele Matrizen gleichzeitig analysieren - individuelles "INDSCAL" -Modell und repliziertes Modell).

Illustration zur Antwort . Einige Punktwolken (Ellipsen) werden auf einer eindimensionalen MDS-Karte abgebildet. Ein Punktepaar wird in roten Punkten angezeigt.

Iteratives oder "wahres" MDS zielt direkt darauf ab, paarweise Abstände zwischen Objekten zu rekonstruieren. Denn es ist die Aufgabe eines jeden MDS . Verschiedene Stress oder Fehlanpassungskriterien zwischen minimiert werden konnte o riginal Abstände und Entfernungen auf der m ap: , , . Ein Algorithmus kann auf diese Weise eine monotone Transformation enthalten (nicht-metrisches MDS) oder nicht (metrisches MDS). $\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

PCA-basiertes MDS (Torgerson's oder PCoA) ist nicht gerade. Dadurch werden die quadratischen Abstände zwischen Objekten im ursprünglichen Raum und ihren Bildern auf der Karte minimiert. Dies ist keine echte MDS-Aufgabe. es ist als MDS nur in dem Ausmaß erfolgreich, in dem die weggeworfenen Junior-Hauptachsen schwach sind. Wenn viel mehr Varianz erklärt als kann erstere allein paarweise Abstände in der Wolke widerspiegeln, insbesondere für Punkte, die weit voneinander entfernt entlang der Ellipse liegen. Iteratives MDS wird immer gewinnen, insbesondere wenn die Karte sehr niedrig dimensioniert sein soll. Iteratives MDS ist auch erfolgreicher, wenn eine Wolkenellipse dünn ist, erfüllt aber die mds-Aufgabe besser als PCoA. Durch die Eigenschaft der Doppelzentrierungsmatrix ( hier beschrieben $P_1$ $P_2$ ) PCoA scheint minimieren , was sich von den obigen Minimierungen unterscheidet. $\|D_o\|_2^2-\|D_m\|_2^2$

Erneut projiziert PCA Cloud- Punkte auf den vorteilhaftesten Subraum, in dem nur der Körper gespeichert werden kann. Es werden keine paarweisen Abstände projiziert , relative Positionen von Punkten auf einem Unterraum, was in dieser Hinsicht am meisten spart , wie dies bei iterativem MDS der Fall ist. Historisch gesehen wird PCoA / PCA jedoch als eine der Methoden des metrischen MDS angesehen.

— ttnphns
quelle

3

(+1) Ich mochte beide Antworten, diese wahrscheinlich etwas mehr.

— Dmitrij Celov

Der Link des PDFs bezieht sich auf PCoA. Es kann im Webarchiv gefunden werden: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

— Pierre

49

Ähm ... ganz anders. In PCA erhalten Sie die multivariaten kontinuierlichen Daten (ein multivariater Vektor für jedes Subjekt) und Sie versuchen herauszufinden, ob Sie nicht so viele Dimensionen benötigen, um sie zu konzipieren. In (metrischen) MDS erhalten Sie die Matrix der Abstände zwischen den Objekten und Sie versuchen herauszufinden, wo sich diese Objekte im Raum befinden (und ob Sie einen 1D-, 2D-, 3D- usw. Raum benötigen). In nicht metrischen MDBs wissen Sie nur, dass die Objekte 1 und 2 weiter entfernt sind als die Objekte 2 und 3. Sie versuchen daher, dies zu quantifizieren, indem Sie die Dimensionen und Positionen ermitteln.

Mit bemerkenswerter Vorstellungskraft kann man sagen, dass ein gemeinsames Ziel von PCA und MDS darin besteht, Objekte in 2D oder 3D zu visualisieren. Angesichts der Unterschiedlichkeit der Eingaben werden diese Methoden jedoch in keinem multivariaten Lehrbuch als entfernt verwandt erörtert. Ich würde vermuten, dass Sie die für PCA verwendbaren Daten in für MDS verwendbare Daten konvertieren können (z. B. durch Berechnen der Mahalanobis-Abstände zwischen Objekten mithilfe der Beispiel-Kovarianzmatrix), aber dies würde sofort zu einem Informationsverlust führen: MDS wird nur definiert Position und Rotation, und die beiden letzteren können informativer mit PCA durchgeführt werden.

Wenn ich jemandem kurz die Ergebnisse eines nicht metrischen MDB zeigen und ihm eine ungefähre Vorstellung davon geben möchte, was es tut, ohne ins Detail zu gehen, könnte ich sagen:

Angesichts der Ähnlichkeits- oder Unähnlichkeitsmaße, die wir haben, versuchen wir, unsere Objekte / Subjekte so abzubilden, dass die „Städte“, aus denen sie bestehen, Entfernungen zwischen ihnen aufweisen, die diesen Ähnlichkeitsmaßen so nahe wie möglich kommen. Wir konnten sie jedoch nur im dimensionalen Raum perfekt abbilden , daher stelle ich hier die beiden informativsten Dimensionen dar - ein bisschen wie in PCA, wenn Sie ein Bild mit den beiden Hauptkomponenten zeigen würden. $n$

— StasK
quelle

18

Wird eine PCA nicht auf eine Korrelationsmatrix angewendet, die einem MDS mit euklidischen Abständen entspricht, die anhand standardisierter Variablen berechnet wurden?

— chl

Wenn ich also jemandem kurz die Ergebnisse eines nichtmetrischen MDB zeigen und ihm eine ungefähre Vorstellung davon geben wollte, was es tut, ohne ins Detail zu gehen, könnte ich dann sagen, dass dies etwas Ähnliches wie PCA tut, ohne irreführend zu sein?

— Freya Harrison

6

Ich würde sagen: "Angesichts der Ähnlichkeit oder Unähnlichkeit, die wir haben, versuchen wir, unsere Objekte / Subjekte so abzubilden, dass die 'Städte', aus denen sie bestehen, Entfernungen zwischen ihnen aufweisen, die diesen Ähnlichkeitsmaßen so nahe kommen wie wir können sie machen. Wir konnten sie nur im dimensionalen Raum perfekt abbilden , daher stelle ich hier die informativsten Dimensionen dar - so wie Sie es in PCA machen würden, wenn Sie ein Bild mit den beiden Hauptkomponenten zeigen würden ".

n

$n$

— StasK

+1 Cool - für mich fesselt dieser Kommentar Ihre Antwort. Vielen Dank.

— Freya Harrison

47

Zwei Arten von metrischen MDB

Die Aufgabe der metrischen mehrdimensionalen Skalierung (MDS) lässt sich abstrakt wie folgt formulieren: Finden Sie bei einer Matrix von paarweisen Abständen zwischen Punkten eine niedrigdimensionale Einbettung von Datenpunkten in so dass Die euklidischen Abstände zwischen ihnen entsprechen ungefähr den angegebenen Abständen: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Wenn hier "ungefähr" im üblichen Sinne eines Rekonstruktionsfehlers verstanden wird, dh wenn das Ziel darin besteht, die als "Stress" bezeichnete Kostenfunktion zu minimieren: dann entspricht die Lösung nicht PCA. Die Lösung wird nicht durch eine geschlossene Formel angegeben und muss durch einen dedizierten iterativen Algorithmus berechnet werden.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

"Classical MDS", auch bekannt als "Torgerson MDS", ersetzt diese Kostenfunktion durch eine verwandte, aber nicht äquivalente Funktion , die als "Stamm" bezeichnet wird: das versucht, den Rekonstruktionsfehler zentrierter Skalarprodukte anstelle von Abständen zu minimieren. Es stellt sich heraus, dass aus berechnet werden kann (wenn euklidische Abstände sind) und dass die Minimierung des Rekonstruktionsfehlers von genau das ist, was PCA tut, wie im nächsten Abschnitt gezeigt.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

Klassisches (Torgerson) MDS für euklidische Entfernungen entspricht PCA

Lassen Sie die Daten in der Matrix der Größe mit Beobachtungen in Zeilen und Merkmalen in Spalten gesammelt werden . Sei die zentrierte Matrix mit subtrahierten Spaltenmitteln. $\mathbf X$ $n \times k$ $\mathbf X_c$

Dann PCA darauf hinaus, die Singularwertzerlegung , wobei die Spalten von die Hauptkomponenten sind. Ein üblicher Weg, um sie zu erhalten, ist über eine Neukomposition der Kovarianzmatrix , aber ein anderer möglicher Weg ist, eine Neukomposition von durchzuführen die Gram-Matrix : Hauptkomponenten sind ihre durch die Quadratwurzeln skalierten Eigenvektoren der jeweiligen Eigenwerte. $\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

Es ist leicht zu erkennen, dass , wobei eine Matrix von Einsen ist. Daraus erhalten wir sofort das wobei eine Gramm-Matrix von nicht zentrierten Daten ist. Dies ist nützlich: Wenn wir die Gram-Matrix mit nicht zentrierten Daten haben, können wir sie direkt zentrieren, ohne zu selbst zurückzukehren. Diese Operation wird manchmal aufgerufen $\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$ Doppelte Zentrierung : Beachten Sie, dass es sich um das Subtrahieren der Zeilen- und Spaltenmittelwerte von (und das Addieren des globalen Mittelwerts, der zweimal subtrahiert wird), sodass sowohl die Zeilen- als auch die Spaltenmittelwerte von gleich Null sind.

K

$\mathbf K$

K_{c}

$\mathbf K_c$

Betrachte nun eine Matrix von paarweisen euklidischen Entfernungen mit. Kann diese Matrix in konvertiert werden, um PCA durchzuführen? Es stellt sich heraus, dass die Antwort ja ist. $n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

In der Tat sehen wir nach dem Kosinusgesetz, dass Also unterscheidet sich von nur durch einige Zeilen- und Spaltenkonstanten (hier bedeutet elementweises Quadrat!). Das heißt, wenn wir es doppelt , erhalten wir :

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

Was bedeutet, dass wir ausgehend von der Matrix der paarweisen euklidischen Abstände eine PCA durchführen und Hauptkomponenten erhalten können. Dies ist genau das, was das klassische (Torgerson) MDS macht: , daher entspricht sein Ergebnis PCA. $\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

Natürlich, wenn ein anderes Entfernungsmaß anstelle von, dann führt klassisches MDB zu etwas anderem. $\|\mathbf x_i - \mathbf x_j\|$

Referenz: Die Elemente des statistischen Lernens , Abschnitt 18.5.2.

— Amöbe
quelle

Ich muss zugeben, dass ich das noch nicht durchdacht habe: aber hier ist eine "Plausibilitätsprüfung", über die ich mich wundere: Sollte aus den Dimensionen der Matrizen nicht Ihre Gram-Matrix das ist ?

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

— Glaube

Danke, @cbeleites, natürlich hast du recht - das ist nur ein Tippfehler. Wird es jetzt beheben. Lassen Sie mich wissen, wenn Sie andere Fehler sehen (oder direkt bearbeiten können).

— Amöbe

1

+1. Und danke, dass du durch Mathe gezeigt hast, was im ersten Absatz meiner Antwort gesagt wurde.

— TTNPHNS

2

+1 Ich wünschte, dies wäre die akzeptierte / beste Antwort. Ich denke, es ist leicht zu verdienen.

— Zhubarb

35

PCA liefert die EXAKTEN gleichen Ergebnisse wie klassisches MDS, wenn der euklidische Abstand verwendet wird.

Ich zitiere Cox & Cox (2001), S. 43-44:

Es gibt eine Dualität zwischen einer Hauptkomponentenanalyse und einer PCO (Principal Coordinates Analysis, auch bekannt als klassisches MDB), bei der die Unterschiede durch die euklidische Distanz gegeben sind.

Der Abschnitt in Cox & Cox erklärt es ziemlich klar:

Stellen Sie sich vor, Sie haben = Attribute von Produkten durch Dimensionen, gemittelt zentriert $X$ $n$ $p$
PCA wird durch Auffinden von Eigenvektoren der Kovarianzmatrix ~ (dividiert durch n-1) erreicht - nennen Sie die Eigenvektoren und Eigenwerte . $X'X$ $\xi$ $\mu$
MDS wird erreicht, indem zuerst in eine Distanzmatrix konvertiert wird, hier eine euklidische Distanz, dh , und dann die Eigenvektoren - die Eigenvektoren und die Eigenwerte . $X$ $XX'$ $v$ $\lambda$
p 43: "Es ist ein bekanntes Ergebnis, dass die Eigenwerte von die gleichen sind wie die für , zusammen mit einem zusätzlichen np Null-Eigenwert." Also, für , = $XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
Wir kehren zur Definition der Eigenvektoren zurück und betrachten die -Eigenwerte. $i^{th}$ $X'Xv_i = \lambda_i v_i$
Vormultiplizieren von mit wir $v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
Wir haben auch . Da , erhalten wir für . $X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

— user1705135
quelle

2

Ich habe ein wenig in R codiert und cmdscale als Implementierung von klassischem MDS und prcomp für PCA verwendet - aber das Ergebnis ist nicht dasselbe ... gibt es irgendeinen Punkt, den ich vermisse ?!

— user4581

3

same results as classical MDS. Mit "klassischem MDS" müssen Sie hier Torgersons MDS meinen. Dann ist die Aussage in der Tat wahr, denn Torgersons MDS ist tatsächlich PCA (nur ausgehend von der Distanzmatrix). Wenn Sie "klassisches MDB" anders definieren (siehe meine Antwort), ist die Aussage nicht wahr.

— TTNPHNS

7

Warten Sie, wie um alles in der Welt liefert XX 'euklidische Distanz? XX 'ist ein inneres Produkt - wenn die Matrix standardisiert wäre, würde dies die Cosinus-Ähnlichkeit ergeben. Die euklidische Distanz erfordert eine Subtraktion und eine Quadratwurzel.

— ShainaR

@ user1705135 Ich bin verwirrt über Ihren Punkt 5. Sollte es nicht ?

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

— Michael

4

Vergleich: "Metric MDS liefert das gleiche Ergebnis wie PCA" - prozedural - wenn wir uns ansehen, wie SVD verwendet wird, um das Optimum zu erzielen. Die erhaltenen hochdimensionalen Kriterien sind jedoch unterschiedlich. PCA verwendet eine zentrierte Kovarianzmatrix, während MDS eine Grammmatrix verwendet, die durch Doppelzentrierungsabstandsmatrizen erhalten wird.

Der Unterschied wird mathematisch ausgedrückt: PCA kann als Maximierung von über unter der Bedingung angesehen werden, dass orthogonal ist, wodurch Achsen / Hauptkomponenten erhalten werden. Bei der mehrdimensionalen Skalierung wird eine Grammmatrix (eine psd-Matrix, die als ) aus dem euklidischen Abstand zwischen den Zeilen in berechnet und das Folgende wird über minimiert . minimieren: . $Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

— Leichenwagen
quelle