Wie interpretiere ich PCA für Zeitreihendaten?

Ich versuche, die Verwendung von PCA in einem kürzlich erschienenen Zeitschriftenartikel mit dem Titel "Mapping brain activity at scale with cluster computing" von Freeman et al., 2014 (kostenloses PDF auf der Laborwebsite verfügbar ) zu verstehen . Sie verwenden PCA für Zeitreihendaten und verwenden die PCA-Gewichte, um eine Karte des Gehirns zu erstellen.

Die Daten sind mittlere trial-Bilddaten, als eine Matrix gespeichert (bezeichnet als in dem Papier) mit Voxeln (oder Abbildungsstellen im Gehirn) Zeitpunkt (die Länge einer einzigen Stimulation an das Gehirn). $\hat {\mathbf Y}$ $n$ $\times \hat t$

Sie nutzen den SVD was zu ( anzeigt transponierte Matrix ).

\hat{Y} = {U S V}^{⊤}

$\hat {\mathbf Y} = \mathbf{USV}^\top$

V^{⊤}

$\mathbf V^\top$

V

$\mathbf V$

Die Autoren geben das an

Die Hauptkomponenten (die Spalten von ) sind Vektoren der Länge , und die Scores (die Spalten von ) sind Vektoren der Länge (Anzahl der Voxel), wobei der Vorsprung jedes Voxels auf der durch die entsprechende Komponente gegebenen Richtung beschreibt Bilden von Projektionen auf dem Volumen, dh Ganzhirnkarten. $\mathbf V$ $\hat t$ $\mathbf U$ $n$

So sind die PCs sind Vektoren der Länge . Wie kann ich interpretieren, dass die "erste Hauptkomponente die größte Varianz erklärt", wie es in PCA-Tutorials üblich ist? Wir haben mit einer Matrix aus vielen stark korrelierten Zeitreihen begonnen. Wie erklärt eine einzelne PC-Zeitreihe die Varianz in der ursprünglichen Matrix? Ich verstehe die ganze Sache "Rotation einer Gaußschen Punktewolke auf der verschiedensten Achse", bin mir aber nicht sicher, wie dies mit Zeitreihen zusammenhängt. Was meinen die Autoren mit Richtung, wenn sie sagen : "Die Punkte (die Spalten von ) sind Vektoren der Länge $\hat t$ $\mathbf U$ $n$ (Anzahl der Voxel), die die Projektion jedes Voxels auf die von der entsprechenden Komponente vorgegebene Richtung beschreiben "? Wie kann ein Hauptkomponenten-Zeitverlauf eine Richtung haben?

Um ein Beispiel für die resultierenden Zeitreihen aus den linearen Kombinationen der Hauptkomponenten 1 und 2 und der zugehörigen Gehirnkarte anzuzeigen, gehen Sie zum folgenden Link und bewegen Sie die Maus über die Punkte im XY-Diagramm.

Freman et al.

Meine zweite Frage bezieht sich auf die (Zustandsraum-) Trajektorien, die sie unter Verwendung der Hauptkomponentenbewertungen erstellen.

Diese werden erstellt, indem die ersten 2 Punkte (im Fall des oben beschriebenen "optomotorischen" Beispiels) herangezogen werden und die einzelnen Versuche (die zum Erstellen der oben beschriebenen versuchsgemittelten Matrix verwendet werden) in den Hauptunterraum mit der Gleichung: projiziert werden

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

Wie Sie an den verknüpften Filmen sehen können, repräsentiert jede Spur im Zustandsraum die Aktivität des Gehirns als Ganzes.

Kann jemand die Intuition dafür liefern, was jedes "Einzelbild" des Zustandsraumfilms im Vergleich zu der Figur bedeutet, die die XY-Darstellung der Punktzahlen der ersten 2 PCs assoziiert. Was bedeutet es in einem gegebenen "Rahmen", dass 1 Versuch des Experiments auf einer Position im XY-Zustandsraum und ein anderer Versuch auf einer anderen Position ist? In welcher Beziehung stehen die XY-Plotpositionen in den Filmen zu den Hauptkomponentenspuren in der verknüpften Abbildung, die im ersten Teil meiner Frage erwähnt wurde?

Freeman et al.

— statHacker
quelle

+1 Ich habe Ihre Frage bearbeitet, schauen Sie sich an, wie man hier Tex-Gleichungen formatieren kann. Abgesehen davon kenne ich die Zeitung ziemlich gut und werde später antworten.

— Amöbe sagt Reinstate Monica

Dies ist nicht genau das, was das OP will, aber es kann hilfreich sein, die Hauptkomponenten aus Zeitreihendaten zu interpretieren, da ich dies die ganze Zeit mache. Normalerweise interpretiere ich PCA gerne als Karhunen-Loève-Erweiterung: Ausdrücken einer bestimmten Zeitreihe,

(der verschiedenen Zeitreihen, auf die Sie PCA anwenden), als lineare Kombination von nicht korrelierten Zeitreihen (dh den Hauptkomponenten). Die Gewichte jeder Zeitreihe sind in diesem Fall durch die aus der Kovarianzmatrix erhaltenen Eigenvektoren gegeben.

X_{t}

$X_t$

— Néstor

(Siehe dies für eine ausführlichere Erklärung meines Punktes: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )

— Néstor

Ich habe Ihrer Frage einige Screenshots hinzugefügt, auf die Sie sich bezogen haben.

— Amöbe sagt Reinstate Monica

Wie hast du die Bilder hinzugefügt?

— statHacker

Antworten:

F1: Wie hängen PC-Zeitreihen und "maximale Varianz" zusammen?

$\hat t$ $n$ $\hat t$ $n$ $\mathbb R^n$

$1$ $\hat t$ $\mathbb R^n$ $\mathbb R^n$ $\hat t$

Ich stimme der obigen Interpretation von @ Nestor zu: Jedes ursprüngliche Merkmal kann dann als eine lineare Kombination von PCs angesehen werden, und da PCs nicht miteinander korreliert sind, kann man sich diese als Basisfunktionen vorstellen, in die die ursprünglichen Merkmale zerlegt werden. Es ist ein bisschen wie die Fourier-Analyse, aber anstatt feste Sinus- und Cosinus-Basis zu verwenden, finden wir die "am besten geeignete" Basis für diesen bestimmten Datensatz, in dem Sinne, dass der erste PC die größte Varianz ausmacht usw.

"Accounting for most varianz" bedeutet hier, dass der erste PC die beste Arbeit leistet, wenn Sie nur eine Basisfunktion (Zeitreihe) verwenden und versuchen, alle Funktionen damit zu approximieren. Die grundlegende Intuition hier ist also, dass der erste PC eine Basisfunktionszeitreihe ist, die zu allen verfügbaren Zeitreihen am besten passt, usw.

Warum ist diese Passage in Freeman et al. so verwirrend?

$\hat{\mathbf Y}$

\hat{Y} = {U S V}^{⊤} .

$\hat {\mathbf Y} = \mathbf{USV}^\top.$

U

$\mathbf U$

R^{n}

$\mathbb R^n$

S V

$\mathbf{SV}$

\hat{t}

$\hat t$

Der Satz, den Sie aus Freeman et al. ist in der Tat ziemlich verwirrend:

Die Hauptkomponenten (die Spalten von V ) sind Vektoren der Länge t , und die Scores (die Spalten von U ) sind Vektoren der Länge n (Anzahl der Voxel), wobei $\mathbf V$ $\hat t$ $\mathbf U$ $n$

$\mathbf V$ $\mathbf U$ $n$ $\hat t$ $\hat t$ $\mathbf U$

Ich finde das sehr verwirrend und schlage daher vor, die Wortwahl zu ignorieren, aber nur die Formeln zu betrachten. Von diesem Punkt an werde ich die Begriffe weiterhin so verwenden, wie ich sie mag, nicht wie Freeman et al. benutze sie.

F2: Was sind die Zustandsraumbahnen?

$\mathbf U$ $\hat{\mathbf Y}$ $\hat t$

$\mathbf Y$ $\hat t$

$\mathbf Y$

— Amöbe sagt Reinstate Monica
quelle

Ich habe diese Frage als Kommentar unten gestellt, aber vielleicht kann @amoeba helfen? Ist der erste Hauptkomponentengewichtungsvektor nur die mittlere Zeitreihe, die über alle Voxel hinweg zusammenbricht? Wenn es der Mittelwert wäre, würde dies zu den kleinsten Punktzahlen führen, die zu den einzelnen Datenspuren passen. -

— statHacker

Die kurze Antwort lautet Nein , es handelt sich in der Regel nicht um die mittlere Zeitreihe, obwohl sie in vielen Fällen ziemlich nahe beieinander liegen kann. Stellen Sie sich als Beispiel eine Sammlung von Zeitreihen vor, bei denen es sich um gerade Linien mit unterschiedlichen Steigungen (positiv und negativ) handelt, die alle durch Null verlaufen. Dann liegt die mittlere Zeitreihe um die Konstante Null. Aber der erste PC wird starke lineare Linie sein. Übrigens denke ich, dass dies eine ausgezeichnete Frage ist. Wenn Sie weitere Details und / oder Zahlen wünschen, stellen Sie diese bitte (erneut) als separate Frage. Achten Sie nur darauf, keine Teile dieser Frage über Freeman et al. Zu duplizieren; mach sie getrennt.

— Amöbe sagt Reinstate Monica

(oder jeder andere, der an einer Antwort interessiert ist) - Was meinen Sie im Hinblick auf Q2 mit "Projizieren [jeder Versuch] auf die ersten beiden [PCs]"? Mathematisch ist es sehr klar, dass U ein Vektor der Länge n Voxel ist, und wenn die Matrix mit der Länge n Matrix Y multipliziert wird, wird eine Dimensionsreduktion auf die ersten 2 PC erreicht. Können Sie uns einschätzen, dass U die Punktematrix ist (dh die Entfernung jedes Voxels von den ersten beiden PCs)? Kann ich mir jeden Zeitpunkt von J als den 2-D-Durchschnitt der Projektion jeder Voxelposition im 2-dimensionalen Diagramm des 1. Bilds oben vorstellen?

— StatHacker

U

$U$

U

$U$

S V

$\mathbf{SV}$

$p$ $\bf V$ $\hat t$

$\bf \hat Y$ $n \times \hat t$ $\bf U$ $n \times n$ $\bf V$ $\hat t \times \hat t$

In Bezug auf die zweite Frage. Die angegebene Gleichung lautet

$\bf J = \bf U^T Y$

$\bf J$ $\times t$

$t \ne \hat t$ $\bf J$

$\hat t$

Ich habe mich vorher nicht mit der Färbemethode befasst, und es würde eine Weile dauern, bis ich zuversichtlich war, diesen Aspekt zu kommentieren. Ich fand den Kommentar zur Ähnlichkeit mit Fig. 4c verwirrend, da die Färbung dort durch Per-Voxel-Regression erhalten wird. Während in 6 jede Spur ein Ganzbild-Artefakt ist. Wenn ich nicht klargestellt werde, ist es meiner Meinung nach die Richtung des Stimulus während dieses Zeitabschnitts, wie aus dem Kommentar in der Abbildung hervorgeht.

— Vermutungen
quelle

Die erste Abbildung oben bezieht sich auf ein Experiment mit dem gleichen visuellen Reiz, der jedes Mal präsentiert wird. Für diese Daten gibt es eine andere Figur und einen anderen Film. Die zweite Abbildung oben bezieht sich auf ein anderes Experiment, bei dem die Reize visuelle Reize mit unterschiedlichen Orientierungen sind. Die Spuren in der zweiten Abbildung oben sind farbig, um einfach unterschiedlichen visuellen Reizeorientierungen zu entsprechen.

— statHacker

Y

$\mathbf Y$

\hat{T}

$\hat {\mathbf T}$

\n

$\n$

V

$\mathbf V$

S

$\mathbf S$

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

U

$\mathbf U$

Ich habe die Dinge neu arrangiert. Entschuldigung, war ein Überbleibsel, bevor ich etwas anderes aussortierte.

— Vermutungen

Danke für deine Hilfe. Ist der erste Hauptkomponentengewichtungsvektor nur die mittlere Zeitreihe, die über alle Voxel hinweg zusammenbricht? Wenn es der Mittelwert wäre, würde dies zu den kleinsten Punktzahlen führen, die zu den einzelnen Datenspuren passen.

— statHacker