Das ist eine interessante Frage. Meine Forschungsgruppe verwendet die Distribution, auf die Sie sich beziehen, seit einigen Jahren in unserer öffentlich zugänglichen Bioinformatik-Software. Soweit ich weiß, hat die Distribution keinen Namen und es gibt keine Literatur darüber. Während das von Aksakal zitierte Paper von Chandra et al. (2012) eng verwandt ist, scheint die von ihnen betrachtete Verteilung auf ganzzahlige Werte für beschränkt zu sein, und sie scheinen keinen expliziten Ausdruck für das PDF zu geben.r
Um Ihnen einige Hintergrundinformationen zu geben, wird die NB-Verteilung in der Genomforschung sehr häufig verwendet, um Genexpressionsdaten zu modellieren, die sich aus RNA-seq und verwandten Technologien ergeben. Die Zähldaten entstehen als Anzahl der DNA- oder RNA-Sequenzablesungen, die aus einer biologischen Probe extrahiert wurden, die auf jedes Gen abgebildet werden kann. Typischerweise gibt es Dutzende Millionen Lesevorgänge von jeder biologischen Probe, die auf ungefähr 25.000 Gene abgebildet sind. Alternativ könnte man DNA-Proben haben, aus denen Lesungen auf genomische Fenster abgebildet werden. Wir und andere haben einen Ansatz populär gemacht, bei dem NB glms an die Sequenzablesungen für jedes Gen angepasst werden und empirische Bayes-Methoden verwendet werden, um die genweisen Dispersionsschätzer (Dispersion zu moderierenϕ=1/r). Dieser Ansatz wurde in Zehntausenden von Zeitschriftenartikeln in der Genomliteratur zitiert, sodass Sie eine Vorstellung davon bekommen, wie viel davon verwendet wird.
Meine Gruppe verwaltet das Softwarepaket edgeR R. Vor einigen Jahren haben wir das gesamte Paket so überarbeitet, dass es mit gebrochenen Zählern unter Verwendung einer kontinuierlichen Version des NB pmf funktioniert. Wir haben einfach alle Binomialkoeffizienten in der NB pmf in Verhältnisse von Gammafunktionen konvertiert und als (gemischtes) kontinuierliches PDF verwendet. Die Motivation dafür war, dass die Anzahl der gelesenen Sequenzen manchmal gebrochen sein kann, weil (1) Lesevorgänge nicht eindeutig auf das Transkriptom oder Genom abgebildet werden und / oder (2) die Anzahl normalisiert wird, um technische Effekte zu korrigieren. Daher sind die Zählungen manchmal eher erwartete oder geschätzte Zählungen als beobachtete Zählungen. Und natürlich können die Lesezahlen mit positiver Wahrscheinlichkeit genau null sein. Unser Ansatz stellt sicher, dass die Inferenzergebnisse unserer Software in den Zählungen kontinuierlich sind und genau mit diskreten NB-Ergebnissen übereinstimmen, wenn die geschätzten Zählungen Ganzzahlen sind.
Soweit mir bekannt ist, gibt es im PDF weder eine geschlossene Form für die Normalisierungskonstante noch geschlossene Formen für den Mittelwert oder die Varianz. Wenn man bedenkt, dass es für das Integral
(die Fransen-Robinson-Konstante) keine geschlossene Form
gibt, ist klar, dass es für das Integral des stetigen keine geben kann NB pdf entweder. Es scheint mir jedoch, dass die traditionellen Mittelwert- und Varianzformeln für die NB weiterhin gute Näherungswerte für die kontinuierliche NB darstellen sollten. Darüber hinaus sollte die Normierungskonstante langsam mit den Parametern variieren und kann daher ignoriert werden, da sie einen vernachlässigbaren Einfluss auf die Maximalwahrscheinlichkeitsberechnungen hat.
∫∞01Γ(x)dz
Man kann diese Hypothesen durch numerische Integration bestätigen. Die NB-Verteilung entsteht in der Bioinformatik als eine Gamma-Mischung von Poisson-Verteilungen (siehe den Wikipedia-Artikel über negative Binomialzahlen oder McCarthy et al. Unten). Die kontinuierliche NB-Verteilung entsteht einfach durch Ersetzen der Poisson-Verteilung durch ihr kontinuierliches Analogon durch pdf
für wobei eine Normalisierungskonstante ist, um sicherzustellen, dass die Dichte zu 1 integriert wird. Nehmen wir zum Beispiel an, dass . Die Poisson-Verteilung hat pmf gleich dem obigen pdf für die nicht negativen ganzen Zahlen und mit
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10Der Poisson-Mittelwert und die Varianz sind gleich 10. Die numerische Integration zeigt, dass und der Mittelwert und die Varianz der kontinuierlichen Verteilung gleich 10 bis ungefähr 4 signifikante Zahlen sind. Die Normierungskonstante ist also praktisch 1 und der Mittelwert und die Varianz sind fast genau die gleichen wie für die diskrete Poisson-Verteilung. Die Annäherung wird noch verbessert, wenn wir eine Kontinuitätskorrektur hinzufügen, die von bis anstelle von 0 integriert. Bei der Kontinuitätskorrektur ist alles korrekt (Normierungskonstante ist 1 und Momente stimmen mit diskretem Poisson überein) bis ungefähr 6 zahlen.
a(10)=1/0.999875−1/2∞
In unserem edgeR-Paket müssen wir keine Anpassung vornehmen, um die Tatsache zu berücksichtigen, dass die Masse bei Null liegt, da wir immer mit bedingten Log-Wahrscheinlichkeiten oder mit Log-Wahrscheinlichkeiten-Differenzen arbeiten und Delta-Funktionen aus den Berechnungen herausfallen. Dies ist typisch für Glms mit gemischten Wahrscheinlichkeitsverteilungen. Alternativ könnten wir die Verteilung so betrachten, dass sie keine Masse bei Null hat, sondern eine Unterstützung, die bei -1/2 statt bei Null beginnt. Jede theoretische Perspektive führt in der Praxis zu denselben Berechnungen.
Obwohl wir die kontinuierliche NB-Distribution aktiv nutzen, haben wir nichts explizit darüber veröffentlicht. Die unten aufgeführten Artikel erläutern den NB-Ansatz für Genomdaten, erörtern jedoch nicht explizit die kontinuierliche NB-Verteilung.
Zusammenfassend wundert es mich nicht, dass der Artikel, den Sie studieren, vernünftige Ergebnisse aus einer fortlaufenden Version des NB pdf erzielt hat, denn das ist auch unsere Erfahrung. Die Hauptanforderung ist, dass wir die Mittelwerte und Varianzen korrekt modellieren und dass dies in Ordnung ist, vorausgesetzt, dass die Daten, ob ganzzahlig oder nicht, dieselbe Form der quadratischen Mittelwert-Varianz-Beziehung aufweisen wie die NB-Verteilung.
Verweise
Robinson, M. und Smyth, GK (2008). Kleine Stichprobenschätzung der negativen Binomialdispersion mit Anwendungen auf SAGE-Daten . Biostatistics 9, 321 & ndash; 332.
Robinson, MD und Smyth, GK (2007). Moderierte statistische Tests zur Beurteilung der Unterschiede in der Häufigkeit von Tags . Bioinformatics 23, 2881 & ndash; 2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Differentialexpressionsanalyse von Multifaktor-RNA-Seq-Experimenten im Hinblick auf biologische Variation . Nucleic Acids Research 40, 4288 & ndash; 4297.
Chen, Y, Lun, ATL und Smyth, GK (2014). Differenzielle Expressionsanalyse komplexer RNA-Sequenz-Experimente unter Verwendung von edgeR. In: Statistical Analysis of Next Generation Sequence Data, Somnath Datta und Daniel S. Nettleton (Hrsg.), Springer, New York, S. 51–74. Preprint
Lun, ATL, Chen, Y und Smyth, GK (2016). Es ist DE-licious: ein Rezept für die Analyse der differentiellen Expression von RNA-seq-Experimenten unter Verwendung von Quasi-Likelihood-Methoden in edgeR. Methods in Molecular Biology 1418, 391 & ndash; 416. Preprint
Chen Y, Lun ATL und Smyth, GK (2016). Von Reads über Gene bis hin zu Signalwegen: Analyse der differentiellen Expression von RNA-Seq-Experimenten unter Verwendung von Rsubread und der EdgeR-Quasi-Likelihood-Pipeline . F1000Research 5, 1438.