In genomweiten Assoziationsstudien (GWAS):
- Was sind die Hauptkomponenten?
- Warum werden sie verwendet?
- Wie werden sie berechnet?
- Kann eine genomweite Assoziationsstudie ohne PCA durchgeführt werden?
In genomweiten Assoziationsstudien (GWAS):
Antworten:
In diesem speziellen Kontext wird PCA hauptsächlich verwendet, um populationsspezifische Variationen der Allelverteilung auf den SNPs (oder anderen DNA-Markern, obwohl ich nur mit dem SNP-Fall vertraut bin), die untersucht werden, zu berücksichtigen. Eine solche "Populations-Substruktur" entsteht hauptsächlich als Folge unterschiedlicher Häufigkeiten von geringfügigen Allelen in genetisch entfernten Abstammungen (z. B. Japaner und Schwarzafrikaner oder Europäer-Amerikaner). Die allgemeine Idee wird in Populationsstruktur und Eigenanalyse von Patterson et al. ( PLoS Genetics 2006, 2 (12)) oder die Sonderausgabe des Lancet zur genetischen Epidemiologie (2005, 366; die meisten Artikel sind im Internet zu finden, beginnend mit Cordell & Clayton, Genetic Association Studies ).
Die Konstruktion der Hauptachsen folgt aus der klassischen Herangehensweise an PCA, die auf die skalierte Matrix (Individuen durch SNPs) der beobachteten Genotypen (AA, AB, BB; sagen wir, B ist in allen Fällen das Nebenallel) angewendet wird, mit der Ausnahme, dass Eine zusätzliche Normalisierung zur Berücksichtigung der Bevölkerungsdrift könnte angewendet werden. Es wird davon ausgegangen, dass die Häufigkeit des Nebenallels (mit einem Wert in {0,1,2}) als numerisch betrachtet werden kann. Das heißt, wir arbeiten nach einem additiven Modell (auch Alleldosis genannt) oder einem entsprechenden Modell , das Sinn macht . Da die aufeinanderfolgenden orthogonalen PCs die maximale Varianz ausmachen, können auf diese Weise Gruppen von Individuen hervorgehoben werden, die sich auf der Ebene der geringen Allelhäufigkeit unterscheiden. Die dafür verwendete Software heißt Eigenstrat . Es ist auch im erhältlichegscore()
Funktion aus dem GenABEL R-Paket (siehe auch GenABEL.org ). Es ist anzumerken, dass andere Methoden zum Nachweis der Populationsunterstruktur vorgeschlagen wurden, insbesondere die modellbasierte Clusterrekonstruktion (siehe Referenzen am Ende). Weitere Informationen finden Sie im Hapmap- Projekt und im verfügbaren Tutorial des Bioconductor- Projekts. (Suchen Sie bei Google nach den netten Tutorials von Vince J Carey oder David Clayton).
Bevölkerungsschichtung in der Online-Hilfe.
In Anbetracht der Tatsache, dass die Eigenanalyse es ermöglicht, bestimmte Strukturen auf der Ebene der Individuen aufzudecken, können wir diese Informationen verwenden, um beobachtete Variationen eines bestimmten Phänotyps (oder eine Verteilung, die nach einem binären Kriterium definiert werden kann, z. B. Krankheit oder Fallkontrolle) zu erklären Lage). Insbesondere können wir unsere Analyse mit diesen PCs (dh den Faktor-Scores von Individuen) anpassen, wie in der Analyse der Hauptkomponenten zur Korrektur der Stratifizierung in genomweiten Assoziationsstudien von Price et al. ( Nature Genetics 2006, 38 (8)) und spätere Arbeiten (es gab ein schönes Bild, das die Achsen der genetischen Variation in Europa in der Geographie der Gene innerhalb Europas zeigt; Nature 2008); Abb. 1A unten wiedergegeben). Beachten Sie auch, dass eine andere Lösung darin besteht, eine geschichtete Analyse durchzuführen (indem die ethnische Zugehörigkeit in ein GLM einbezogen wird ) - dies ist beispielsweise im snpMatrix- Paket verfügbar .
Verweise