假设每个孩子掷一枚有偏见的硬币来确定他们是否患有癌症。如果我们假设正面(癌症)的概率是 1.6/100,000,我们可以使用二项式分布找到我们期望的癌症计数分布。
在R代码中,我们可以使用以下dbinom命令找到分布:
dbinom(x = 0:5, size = 38000, prob = 1.6/100000)
这里,x是案例的数量(0:5意味着我们正在查看 0 个案例、1 个案例等最多 5 个案例的概率)。大小是孩子的数量,概率是您引用的基线概率。
稍微清理一下输出后,我们得到一个像这样的表格:
number_of_cases probability
0 0.54444
1 0.33102
2 0.10063
3 0.02039
4 0.00310
5 0.00038
因此,在此模型下,您预计在 38,000 名儿童中只有 2% 的时间会找到 3 个案例——而且您几乎找不到更多的案例。
简而言之,(假设这些数字具有可比性),它似乎确实偏高,可能值得进一步调查。但是您不一定需要调用随机机会以外的任何特殊因素来解释差异。
编辑添加:根据 EpiGrad 的评论,我添加了一张图片,显示如果我们不确定每 10 万例 1.6 例的基线概率,这些概率会如何变化。红点是我在上面列出的值,点云表示如果
对于此示例,我使用 对 beta 分布中的基线进行采样rbeta(1000, 1.6, 100000 - 1.6),平均每 100k 有 1.6 个案例,并且两边都有一些分布,但不低于 0。分布的数量可能合理,也可能不合理,具体取决于什么你想做的假设。我的直觉是我包含了比我应该拥有的更多的变化,但谁知道呢。
从图中可以看出,如果英国的数据大大低估了日本在福岛事故之前的“真实”癌症发病率,我们可能会在 20% 的时间内看到每 38k 例 3 例。您是否认为这可能取决于此问题范围之外的其他信息,包括我是否从英国的估计中包含了适当数量的不确定性。
