Verwenden der Hauptkomponentenanalyse im Vergleich zur Korrespondenzanalyse


9

Ich analysiere einen Datensatz über Gezeitengemeinschaften. Die Daten beziehen sich auf die prozentuale Abdeckung (von Seetang, Seepocken, Muscheln usw.) in Quadraten. Ich bin zu Denken über Korrespondenzanalyse (CA) in Bezug auf die Arten verwendet zählt, und Hauptkomponentenanalyse (PCA) als etwas nützlicher für lineare Umwelt (nicht Spezies) Trends. Ich hatte nicht wirklich Glück herauszufinden, ob PCA oder CA besser für die prozentuale Deckung geeignet sind (ich kann keine Papiere finden), und ich bin mir nicht einmal sicher, wie etwas, das auf 100% begrenzt ist, verteilt wird ?

Ich bin mit der groben Richtlinie vertraut, dass Sie davon ausgehen können, dass CA verwendet werden sollte, wenn die Länge der ersten DCA-Achse (Detrended Correspondence Analysis) größer als 2 ist. Die Länge der DCA-Achse 1 betrug 2,17, was ich nicht hilfreich finde.


3
Sowohl PCA als auch CA sind verwandt und beide können auf dem SVD-Algorithmus basieren. Der grundlegende formale Unterschied (in der ansonsten tiefen Antwort von @ Gavin nicht erwähnt) besteht darin, dass PCA nur die Beziehungen zwischen Spalten zerlegt (z. B. durch Zerlegen ihrer Kovarianzmatrix) und Zeilen als "Fälle" behandelt; während CA Spalten und Zeilen gleichzeitig zerlegt und sie symmetrisch als tabellarische "Kategorien" behandelt. Daher liefern der von CA hinterlassene Biplot und der Quasi-Biplot (Ladungen + Scores), die nach PCA aufgezeichnet werden könnten, konzeptionell ganz andere Informationen.
ttnphns

Antworten:


9

PCA arbeitet mit den Werten, während CA mit den relativen Werten arbeitet. Beide eignen sich gut für Daten zur relativen Häufigkeit der von Ihnen genannten Art (mit einer großen Einschränkung, siehe später). Mit% data haben Sie bereits ein relatives Maß, aber es gibt immer noch Unterschiede. Frag dich selbst

  • Möchten Sie das Muster in den reichlich vorhandenen Arten / Taxa (dh denjenigen mit großer prozentualer Abdeckung) hervorheben, oder
  • Möchten Sie sich auf die Muster der relativen Komposition konzentrieren?

Wenn erstere, verwenden Sie PCA. Wenn letztere CA verwenden. Was ich mit den beiden Fragen meine, ist, würden Sie wollen

A = {50, 20, 10}
B = { 5,  2,  1}

als unterschiedlich oder gleich angesehen werden? Aund Bsind zwei Stichproben und die Werte sind die prozentuale Abdeckung von drei gezeigten Taxa. (Dieses Beispiel hat sich als schlecht herausgestellt, vorausgesetzt, es gibt nackten Boden! ;-) PCA würde diese aufgrund des verwendeten euklidischen Abstands als sehr unterschiedlich betrachten, aber CA würde diese beiden Proben als sehr ähnlich betrachten, da sie das gleiche relative Profil haben.

Die große Einschränkung hierbei ist die geschlossene Zusammensetzung der Daten. Wenn Sie einige Gruppen haben (z. B. Sand, Schlick, Ton), die sich zu 1 (100%) summieren, ist keiner der beiden Ansätze korrekt, und Sie können über Aitchisons Log-Ratio-PCA, die für geschlossene Kompositionen entwickelt wurde, zu einer angemesseneren Analyse übergehen Daten. (IIRC, um dies zu tun, müssen Sie nach Zeilen und Spalten zentrieren und die Daten protokollieren.) Es gibt auch andere Ansätze. Wenn Sie R verwenden, dann ein Buch , das wäre sinnvoll ist , wird analysiert Kompositorische Daten mit R .


Wie immer eine wirklich hervorragende Antwort Gavin. Vielen Dank! Das klärt die Dinge sehr und ich werde dann PCA verwenden. Angesichts der Tatsache, dass die Gezeitengemeinschaft dreidimensional ist, ging die prozentuale Abdeckung in einigen Fällen sogar zu 100%, wenn die Organismen übereinander wuchsen. Dies ist jedoch nicht die geschlossene Kompositionsform, von der Sie sprechen, oder?
HFBrowning

Nein, es ist nicht das, wovon er spricht. Mit geschlossen meine ich ein System, in dem mit drei Arten A, B, C% C = 100% -% B -% A
Pertinax

und was ist mit DCA?
Darwin PC

DCA ist eine durcheinandergebrachte Version von CA, daher gelten für sie dieselben allgemeinen Grundsätze. DCA quält die Daten auf seltsame Weise und ich glaube nicht, dass wir uns heute als Methode in unserer Toolbox damit beschäftigen müssen, aber die Meinungen anderer werden diesbezüglich unterschiedlich sein.
Gavin Simpson
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.