Q1
Ökologen sprechen die ganze Zeit über Farbverläufe. Es gibt viele Arten von Verläufen, aber es kann am besten sein, sie als eine Kombination der gewünschten oder für die Reaktion wichtigen Variablen zu betrachten. Ein Gradient kann also Zeit oder Raum sein oder die Säure des Bodens oder Nährstoffe oder etwas Komplexeres, wie eine lineare Kombination einer Reihe von Variablen, die in irgendeiner Weise für die Reaktion erforderlich sind.
Wir sprechen von Gradienten, weil wir Arten in Raum oder Zeit beobachten und eine ganze Reihe von Dingen mit diesem Raum oder dieser Zeit variieren.
Q2
Ich bin zu dem Schluss gekommen, dass das Hufeisen in PCA in vielen Fällen kein ernstes Problem ist, wenn Sie verstehen, wie es entsteht, und keine albernen Dinge wie PC1 nehmen, wenn der "Gradient" tatsächlich durch PC1 und PC2 dargestellt wird wird auch in höhere PCs aufgeteilt, aber hoffentlich ist eine 2-D-Darstellung in Ordnung).
In CA denke ich, dasselbe (nachdem ich jetzt gezwungen war, ein bisschen darüber nachzudenken). Die Lösung kann einen Bogen bilden, wenn die Daten keine starke 2. Dimension aufweisen, sodass eine gefaltete Version der ersten Achse, die die Orthogonalitätsanforderungen der CA-Achsen erfüllt, mehr "Trägheit" als eine andere Richtung in den Daten erklärt. Dies kann schwerwiegender sein, da es sich um eine zusammengesetzte Struktur handelt, bei der der Bogen bei PCA nur eine Möglichkeit darstellt, die Artenhäufigkeit an Standorten entlang eines einzigen dominanten Gradienten darzustellen.
Ich habe nie ganz verstanden, warum sich die Leute so viele Sorgen um die falsche Bestellung von PC1 mit einem starken Hufeisen machen. Ich würde dem widersprechen, dass Sie in solchen Fällen nicht nur PC1 nehmen sollten, und dann verschwindet das Problem. Die Koordinatenpaare auf PC1 und PC2 beseitigen die Umkehrungen auf einer dieser beiden Achsen.
Q3
Wenn ich das Hufeisen in einem PCA-Biplot sehen würde, würde ich die Daten so interpretieren, dass sie einen einzelnen dominanten Gradienten oder eine Richtung der Variation aufweisen.
Wenn ich den Bogen sehen würde, würde ich wahrscheinlich den gleichen Schluss ziehen, aber ich wäre sehr vorsichtig, wenn ich versuchen würde, die CA-Achse 2 überhaupt zu erklären.
Ich würde DCA nicht anwenden - es dreht nur den Bogen weg (unter den besten Umständen), so dass Sie in 2-D-Plots keine Seltsamkeiten bemerken, aber in vielen Fällen erzeugt es andere unechte Strukturen wie Diamanten oder Trompetenformen Anordnung der Proben im DCA-Raum. Beispielsweise:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
Auf der linken Seite des Diagramms sehen wir ein typisches Auffächern der Abtastpunkte.
Q4
m
Dies würde darauf hindeuten, eine nichtlineare Richtung im hochdimensionalen Raum der Daten zu finden. Eine solche Methode ist die Hauptkurve von Hastie & Stuezel, es sind jedoch auch andere nichtlineare Verteilermethoden verfügbar, die möglicherweise ausreichen.
Zum Beispiel für einige pathologische Daten
Wir sehen ein starkes Hufeisen. Die Hauptkurve versucht, diesen zugrunde liegenden Gradienten oder die Anordnung / Reihenfolge der Proben über eine glatte Kurve in den m-Dimensionen der Daten wiederherzustellen. Die folgende Abbildung zeigt, wie der iterative Algorithmus auf etwas konvergiert, das sich dem zugrunde liegenden Gradienten annähert. (Ich denke, dass es von den Daten am oberen Rand des Diagramms abweicht, um näher an den Daten in höheren Dimensionen zu sein, und teilweise aufgrund des Selbstkonsistenzkriteriums, nach dem eine Kurve als Hauptkurve deklariert wird.)
Ich habe weitere Details, einschließlich Code, in meinem Blog-Post, aus dem ich diese Bilder gemacht habe. Der wichtigste Punkt hierbei ist jedoch, dass die Hauptkurven die bekannte Reihenfolge der Stichproben leicht wiederherstellen, PC1 oder PC2 alleine jedoch nicht.
Im PCA-Fall ist es üblich, Transformationen in der Ökologie anzuwenden. Beliebte Transformationen sind solche, bei denen man sich vorstellen kann, eine nichteuklidische Distanz zurückzugeben, wenn die euklidische Distanz für die transformierten Daten berechnet wird. Zum Beispiel ist der Hellinger-Abstand
DH e l l i n g e r( x 1 , x 2 ) = ∑j = 1p[ y1 jy1 +----√- y2 jy2 +----√]2------------------⎷
yich jjichyi +ich
Das Hufeisen ist seit langem in der Ökologie bekannt und erforscht; Einige der frühen Literatur (plus ein moderneres Aussehen) ist
Die Hauptreferenzen für die Hauptkurve sind
Ersteres ist eine sehr ökologische Präsentation.