Biologischer Hintergrund
Im Laufe der Zeit neigen einige Pflanzenarten dazu, ihr gesamtes Genom zu duplizieren und eine zusätzliche Kopie jedes Gens zu erhalten. Aufgrund der Instabilität dieses Aufbaus werden viele dieser Gene dann gelöscht, und das Genom ordnet sich neu und stabilisiert sich, bereit, erneut zu duplizieren. Diese Duplikationsereignisse sind mit Speziations- und Invasionsereignissen verbunden, und die Theorie besagt, dass die Duplizierung Pflanzen hilft, sich schneller an ihre neuen Umgebungen anzupassen.
Lupinus, eine Gattung blühender Pflanzen, drang in die Anden bei einem der schnellsten Artenereignisse ein, die jemals entdeckt wurden, und außerdem scheint es mehr Kopien in seinem Genom zu haben als die am engsten verwandte Gattung Baptisia.
Und jetzt das mathematische Problem:
Die Genome eines Mitglieds von Lupinus und eines Mitglieds von Baptisia wurden sequenziert und liefern Rohdaten von etwa 25.000 Genen in jeder Art. Durch die Abfrage einer Datenbank von Genen mit bekannter Funktion habe ich jetzt eine "beste Vermutung", welche Funktionen dieses Gen ausführen könnte - so könnte Gene1298 beispielsweise mit "Fructosestoffwechsel, Salzstressreaktion, Kältestressreaktion" assoziiert sein. Ich möchte wissen, ob zwischen Baptisia und Lupinus ein Duplikationsereignis aufgetreten ist, ob der Genverlust zufällig stattgefunden hat oder ob Gene, die bestimmte Funktionen erfüllen, eher erhalten oder gelöscht wurden.
Ich habe ein Skript, das eine Tabelle wie die unten gezeigte ausgibt. L * ist eine Zählung aller mit der Funktion verbundenen Lupinus-Gene. L 1+ ist eine Anzahl von Lupinus-Genen, die mit der Funktion assoziiert sind, bei der mindestens eine Kopie vorhanden ist. Ich kann es dazu bringen, L 2+, L 3+ usw. zu produzieren, obwohl L 1+ aufgrund des Sequenzierungsprozesses eine viel zuverlässigere Gruppe als L 2+ ist.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Ich möchte für jede Genfunktion testen, ob es mehr oder weniger Gene mit Duplikaten gibt, als bei Lupinus und Baptisia rein zufällig zu erwarten sind, und ob sich Lupinus von Baptisia im Verhältnis von beobachtet zu erwartet unterscheidet.
Das Beste, was ich bisher habe
Frühere Studien an verschiedenen Arten haben die Anreicherungsanalyse mit Fisher's Exact Test und FDR-Korrektur für mehrere Proben verwendet, um einen Kontingenztest für jede Reihe durchzuführen.
Es wäre schön, dies zu verbessern. Ich bin mir nicht sicher, ob dies der beste Weg ist, dies zu tun.
Glen_b hat vorgeschlagen, ein GLM zur Analyse der Daten zu verwenden. Ich habe mit GLMs in JMP8 herumgespielt, was interessant war, aber ich gebe zu, sie nicht wirklich zu verstehen.
Das heißt, ich versuche jetzt stattdessen R zu verwenden.
Wofür benutze ich das?
Dies sollte ursprünglich Teil eines kurzen Forschungsprojekts sein, das ich an der Universität mache, hat sich aber jetzt zu einem riesigen Projekt zur Annotation von Genomen entwickelt. Warum? Weil Bioinformatik cool ist. Es ist erstaunlich, eine Reihe von A, T, C und G zu verwenden, um Informationen über Ereignisse abzuleiten, die vor Millionen von Jahren stattgefunden haben.
Unnötig zu erwähnen, dass ich nicht versuchen werde, eine freundliche Antwort als meine eigene Arbeit einzureichen. Ich würde gerne eine Bestätigung in das Papier aufnehmen, wenn ich eine hier in der eingereichten Arbeit vorgeschlagene Methode verwende.