负二项分布的连续推广

机器算法验证 分布 负二项分布 计数数据 连续数据 生物信息学
2022-02-07 06:51:16

负二项式 (NB) 分布在非负整数上定义并且具有概率质量函数

f(k;r,p)=(k+r1k)pk(1p)r.
考虑由相同公式定义的非负实数上的连续分布是否有意义(将kN0替换为xR0)?二项式系数可以重写为(k+1)(k+r1)的乘积,对于任何实数k都是明确定义的。所以我们会有一个 PDF f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r} . 更一般地,我们可以用 Gamma 函数替换二项式系数,允许r
f(x;r,p)i=1r1(x+i)px(1p)r.
的非整数值r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

它是一个有效的分布吗?它有名字吗?它有什么用处吗?它可能是某种化合物或混合物吗?是否有均值和方差(以及 PDF 中的比例常数)的封闭公式?

(我目前正在研究一篇使用 NB 混合模型(固定r=2)并通过 EM 拟合它的论文。但是,数据是经过一些归一化后的整数,即不是整数。尽管如此,作者应用标准 NB 公式来计算可能性并得到非常合理的结果,所以一切似乎都很好。我发现这很令人费解。请注意,这个问题与 NB GLM无关。)

2个回答

这是一个有趣的问题。我的研究小组多年来一直在我们公开可用的生物信息学软件中使用您提到的发行版。据我所知,该发行版没有名称,也没有关于它的文献。虽然 Aksakal 引用的 Chandra 等人(2012 年)的论文密切相关,但他们认为的分布似乎仅限于的整数值,而且他们似乎没有给出 pdf 的明确表达。r

为了给您一些背景知识,NB 分布在基因组研究中被大量使用,以对来自 RNA-seq 和相关技术的基因表达数据进行建模。计数数据来自于从生物样本中提取的可映射到每个基因的 DNA 或 RNA 序列读数的数量。通常,每个生物样本有数千万条读数,映射到大约 25,000 个基因。或者,一个人可能有 DNA 样本,其中读数被映射到基因组窗口。我们和其他人已经推广了一种方法,其中 NB glms 适合每个基因的序列读数,并且经验贝叶斯方法用于调节基因分散估计量(分散ϕ=1/r)。这种方法已在基因组文献中的数万篇期刊文章中被引用,因此您可以了解它被使用了多少。

我的小组维护edgeR R 软件包. 几年前,我们使用连续版本的 NB pmf 修改了整个包,使其适用于小数计数。我们简单地将 NB pmf 中的所有二项式系数转换为 gamma 函数的比率,并将其用作(混合)连续 pdf。这样做的动机是序列读取计数有时可能是分数,因为(1)读取到转录组或基因组的不明确映射和/或(2)计数标准化以纠正技术影响。因此,计数有时是预期计数或估计计数,而不是观察计数。当然,读取计数可以以正概率恰好为零。我们的方法确保我们软件的推理结果在计数上是连续的,当估计的计数恰好是整数时,与离散的 NB 结果完全匹配。

据我所知,pdf中的归一化常数没有封闭形式,均值或方差也没有封闭形式。当人们认为积分 (弗兰森-罗宾逊常数)没有封闭形式时,很明显,连续的积分不可能存在注意pdf。然而,在我看来,NB 的传统均值和方差公式应该继续是连续 NB 的良好近似值。此外,归一化常数应随参数缓慢变化,因此可以忽略不计,因为在最大似然计算中的影响可以忽略不计。

01Γ(x)dz

人们可以通过数值积分来证实这些假设。NB 分布作为泊松分布的伽马混合出现在生物信息学中(参见下面的维基百科负二项式文章或 McCarthy 等人)。连续 NB 分布的产生只需将泊松分布替换为具有 pdf 对于其中是一个归一化常数,以确保密度积分为 1。例如,假设泊松分布的 pmf 等于上述非负整数上的 pdf,并且

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10,泊松均值和方差等于10。数值积分表明,连续分布的均值和方差等于10到4位左右有效数字。所以归一化常数实际上是 1,并且均值和方差几乎与离散泊松分布完全相同。如果我们添加一个连续性校正,则近似值会进一步提高,从 -1/2 积分使用连续性校正,一切都是正确的(归一化常数为 1,矩与离散泊松一致)到大约 6数据。a(10)=1/0.9998751/2

在我们的 edgeR 包中,我们不需要对质量为零的事实进行任何调整,因为我们总是使用条件对数似然或对数似然差,并且任何 delta 函数都会从计算中抵消。对于具有混合概率分布的 glms,这是典型的 BTW。或者,我们可以认为分布在零处没有质量,但支持从 -1/2 而不是从零开始。任何一种理论观点在实践中都会导致相同的计算。

尽管我们积极使用连续 NB 分布,但我们还没有明确地发布任何内容。下面引用的文章解释了基因组数据的 NB 方法,但没有明确讨论连续 NB 分布。

总之,您正在研究的文章从 NB pdf 的连续版本中获得了合理的结果,我并不感到惊讶,因为这也是我们的经验。关键要求是我们应该正确地对均值和方差进行建模,只要数据(无论是否为整数)表现出与 NB 分布相同形式的二次均值 - 方差关系,那就很好了。

参考

Robinson, M. 和 Smyth, GK (2008)。负二项式离散的小样本估计,适用于 SAGE 数据生物统计学 9, 321-332。

Robinson, MD 和 Smyth, GK (2007)。用于评估标签丰度差异的适度统计测试生物信息学 23, 2881-2887。

McCarthy, DJ, Chen, Y, Smyth, GK (2012)。关于生物变异的多因子 RNA-Seq 实验的差异表达分析核酸研究 40, 4288-4297。

Chen, Y, Lun, ATL 和 Smyth, GK (2014)。使用 edgeR 对复杂 RNA-seq 实验进行差异表达分析。在:下一代序列数据的统计分析,Somnath Datta 和 Daniel S Nettleton (eds),Springer,纽约,第 51--74 页。预印本

Lun, ATL, Chen, Y 和 Smyth, GK (2016)。这是 DE-licious:使用 edgeR 中的准似然方法对 RNA-seq 实验进行差异表达分析的方法。分子生物学方法 1418、391-416。预印本

Chen Y, Lun ATL 和 Smyth, GK (2016)。从读数到基因到通路:使用 Rsubread 和 edgeR 准似然管道的 RNA-Seq 实验的差异表达分析F1000 研究 5, 1438。

看看这篇论文:Chandra、Nimai Kumar 和 Dilip Roy。负二项分布的连续版本。统计 72,没有。1 (2012): 81

它在论文中被定义为生存函数,这是一种自然的方法,因为在可靠性分析中引入了负二项式:

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
其中q=eλ,λ0,p+q=1rN,r>0