在 R 中,pbinom 是否可以采用非整数 x?

机器算法验证 r 自习
2022-03-23 15:46:19

我有一个作业问题是:“找到 x 在二项式平均值的 1 个标准差以内的概率(n = 20,p = 0.25)”。

我发现μ=5σ=1.94. 所以我需要找到P(3.06<x<6.94). 在 R 中,我做到pbinom(6.94, 20, .25) - pbinom(3.06, 20, .25)了,得到了 0.561。

pbinom当 q 不是整数时,R 是如何计算的?当二项分布是离散的时,我对如何做到这一点感到困惑。

2个回答

该函数使用 CDF 的定义正确运行。考虑一个随机变量X具有整数支持。对于任何输入x+r带整数部分x和剩余的0r<1你应该得到:

F(x+r)P(Xx+r)=P(Xx)=F(x).

果然,这正是pbinom正在做的事情:

#Check CDF values
identical(pbinom(6.94, 20, .25), pbinom(6, 20, .25))

[1] TRUE

identical(pbinom(3.06, 20, .25), pbinom(3, 20, .25))

[1] TRUE

如果需要,您还可以检查这是否对应于dbinom(由于舍入而在小公差内)的输出:

#Check CDF values against PDF values
pbinom(6.94, 20, .25) - sum(dbinom(0:6, 20, .25))

[1] 0

pbinom(3.06, 20, .25) - sum(dbinom(0:3, 20, .25))

[1] 2.775558e-17

有两种方法可以做到这一点。

  1. 对样本均值的抽样分布使用正态近似。
  2. 将端点四舍五入到“最接近”的整数以获得保守的间隔。

如果这不是您已经介绍过的某些方法的明显应用,您可以要求老师澄清。

编辑:尽管 R 为这些值提供了输出,但它们的结果的存在在某种程度上是使用 gamma 泛函来估计密度函数表达式中的组合项的伪影。非整数值周围只有一个伽马概率“窗口”,并且 CDF 中的“阶梯”相对陡峭。重要的是,这些“窗口”和“陡峭的台阶”不对应任何物理术语,也与舍入没有任何实际区别。

在此处输入图像描述

在此处输入图像描述

可以尝试:

set.seed(123)
sim <- rbinom(1e7, 20, 0.25)
mean(3.06 < sim & sim < 6.94)
mean(3 < sim & sim <= 6)

并找到

平均值(3.06 < sim & sim < 6.94) 1 0.5605642 平均值(3 < sim & sim <= 6) 1 0.5605642

相似地:

> pbinom(6.94, 20, 0.25) - pbinom(3.06, 20, 0.25)
[1] 0.5606259
> pbinom(6, 20, 0.25) - pbinom(3, 20, 0.25)
[1] 0.5606259