Festlegung der negativen Binomialverteilung für die DNA-Sequenzierung


16

Die negative Binomialverteilung hat sich in der Bioinformatik zu einem beliebten Modell für Zähldaten (insbesondere die erwartete Anzahl von Sequenzierungslesevorgängen innerhalb einer bestimmten Region des Genoms aus einem bestimmten Experiment) entwickelt. Erklärungen variieren:

  • Einige erklären es als etwas, das wie die Poisson-Verteilung funktioniert, aber einen zusätzlichen Parameter hat, der mehr Freiheit bei der Modellierung der wahren Verteilung bietet, wobei die Varianz nicht unbedingt dem Mittelwert entspricht
  • Einige erklären es als gewichtete Mischung von Poisson-Verteilungen (mit einer Gamma-Mischungsverteilung auf dem Poisson-Parameter)

Gibt es eine Möglichkeit, diese Gründe mit der traditionellen Definition einer negativen Binomialverteilung in Einklang zu bringen, indem die Anzahl der Erfolge von Bernoulli-Versuchen modelliert wird, bevor eine bestimmte Anzahl von Fehlern festgestellt wird? Oder sollte ich es einfach als glücklichen Zufall betrachten, dass eine gewichtete Mischung von Poisson-Verteilungen mit einer Gamma-Mischungsverteilung dieselbe Wahrscheinlichkeitsmassenfunktion wie das negative Binom hat?


2
Es ist auch eine zusammengesetzte Poisson-Verteilung, bei der Sie eine Poisson-verteilte Anzahl logarithmischer Zufallsvariablen summieren.
Douglas Zare

Antworten:


8

IMOH, ich denke wirklich, dass die negative Binomialverteilung der Einfachheit halber verwendet wird.

In RNA Seq wird daher häufig davon ausgegangen, dass bei einer unendlichen Anzahl von Messungen desselben Gens in einer unendlichen Anzahl von Replikaten die tatsächliche Verteilung lognormal ist. Diese Verteilung wird dann über einen Poisson-Prozess (mit einer Zählung) abgetastet, so dass die wahre Verteilung, die pro Gen über Replikate gelesen wird, eine Poisson-Log-Normalverteilung wäre.

In Paketen wie EdgeR und DESeq wurde diese Verteilung jedoch als negative Binomialverteilung modelliert. Das liegt nicht daran, dass die Leute, die es geschrieben haben, nichts über eine Poisson Lognormal Distribution wussten.

Das liegt daran, dass die Poisson Lognormal-Verteilung eine schreckliche Sache ist, weil sie eine numerische Integration erfordert, um die Anpassungen usw. durchzuführen. Wenn Sie also tatsächlich versuchen, sie zu verwenden, ist die Leistung manchmal sehr schlecht.

Eine negative Binomialverteilung hat eine geschlossene Form, so dass es viel einfacher ist, mit ihr zu arbeiten, und die Gamma-Verteilung (die zugrunde liegende Verteilung) ähnelt einer logarithmischen Normalverteilung insofern, als sie manchmal normal aussieht und manchmal einen Schwanz hat.

Aber in diesem Beispiel (wenn Sie der Annahme glauben) kann es möglicherweise nicht theoretisch korrekt sein, da die theoretisch korrekte Verteilung das Poisson-Lognormal ist und die beiden Verteilungen vernünftige Annäherungen voneinander sind, aber nicht gleichwertig.

Aber ich denke immer noch, dass die "falsche" negative Binomialverteilung oft die bessere Wahl ist, da sie empirisch bessere Ergebnisse liefert, da die Integration langsam verläuft und die Anpassungen schlecht ablaufen können, insbesondere bei Verteilungen mit langen Schwänzen.


7

rαβ

r

  1. αα+βNB(r,αα+β)

  2. Betrachte die Zeit trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Das erklärt, warum diese Verteilungen gleich sind.


2

Ich kann nur Intuition anbieten, aber die Gammaverteilung selbst beschreibt (kontinuierliche) Wartezeiten (wie lange dauert es, bis ein seltenes Ereignis eintritt). Die Tatsache, dass eine gamma-verteilte Mischung diskreter Poissonverteilungen zu einer diskreten Wartezeit (Versuche bis zu N-Ausfällen) führen würde, scheint daher nicht zu überraschend. Ich hoffe jemand hat eine formellere Antwort.

Edit: Ich habe immer das negative Binomial dist begründet. Für die Sequenzierung gilt Folgendes: Der eigentliche Sequenzierungsschritt besteht einfach darin, Lesevorgänge aus einer großen Bibliothek von Molekülen zu entnehmen (Poisson). Diese Bibliothek wird jedoch durch PCR aus der ursprünglichen Probe hergestellt. Das bedeutet, dass die ursprünglichen Moleküle exponentiell amplifiziert werden. Und die Gamma-Verteilung beschreibt die Summe von k unabhängigen exponentiell verteilten Zufallsvariablen, dh wie viele Moleküle in der Bibliothek nach Amplifikation von k Probenmolekülen für die gleiche Anzahl von PCR-Zyklen vorhanden sind.

Daher die PCR mit negativen Binomialmodellen, gefolgt von Sequenzierung.


Das ist sinnvoll, aber gibt es im Zusammenhang mit der Messung der Anzahl der Sequenzierungslesevorgänge in einem Genom eine intuitive Erklärung dafür, was die Wartezeit in der negativen Binomialverteilung darstellt? In diesem Fall gibt es keine Wartezeit - er misst nur die Anzahl der Sequenzierungslesevorgänge.
RobertF

Siehe meine Bearbeitung. Ich verstehe nicht, wie das Denken in Wartezeiten zur Sequenzeinstellung passt. Die Gamma-Poisson-Mischung ist leichter zu interpretieren. Aber am Ende sind sie dasselbe.
Felix Schlesinger

2
Ok - dann ist die eigentliche Frage vielleicht, durch welchen Zufall folgt die Modellierung von k Erfolgen + r Misserfolgen in Bernoulli-Versuchen einer Gamma-Poisson-Mischung? Möglicherweise kann eine negative Binomialmodellierung von k Erfolgen + r Fehlern als überdisperse Poisson-Datenbank aufgefasst werden, da viele mögliche Permutationen von Erfolgs- und Fehlschlagversuchen zu den genau k beobachteten Erfolgen und r beobachteten Fehlern führen, die als Sammlung von beschrieben werden können getrennte dbns?
RobertF

2

Ich werde versuchen, eine vereinfachende mechanistische Interpretation zu geben, die ich beim Nachdenken nützlich fand.

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.