给定每 100,000 人中 x 的历史疾病发病率,每 100,000 人中 y 的概率是多少?

机器算法验证 可能性
2022-03-22 17:39:19

请原谅这个相当基本的问题,但我正在阅读关于福岛甲状腺癌的这篇文章,据报道在上一财政年度发现了 38,000 名儿童中的 3 例。另一个网站告诉我,英国 15 至 19 岁的人(我找不到日本的数字)的比率约为每年每 100,000 人 1.6 人,即每 38,000 人 0.6 人。

理性的我认为,一年发生 3 例而不是 0 例或 1 例只是统计上的小问题,但我的“想孩子”的人说,发生率要高出五倍。

那么,有人可以在统计上向我保证/让我担心这些数字吗?

(PS:我意识到增加专门针对甲状腺问题的检测可能会因更早发现肿瘤而扭曲去年的统计数据,但我们可以在这里忽略这一点吗?)

1个回答

假设每个孩子掷一枚有偏见的硬币来确定他们是否患有癌症。如果我们假设正面(癌症)的概率是 1.6/100,000,我们可以使用二项式分布找到我们期望的癌症计数分布

R代码中,我们可以使用以下dbinom命令找到分布:

dbinom(x = 0:5, size = 38000, prob = 1.6/100000)

这里,x是案例的数量(0:5意味着我们正在查看 0 个案例、1 个案例等最多 5 个案例的概率)。大小是孩子的数量,概率是您引用的基线概率。

稍微清理一下输出后,我们得到一个像这样的表格:

    number_of_cases probability
               0     0.54444
               1     0.33102
               2     0.10063
               3     0.02039
               4     0.00310
               5     0.00038

因此,在此模型下,您预计在 38,000 名儿童中只有 2% 的时间会找到 3 个案例——而且您几乎找不到更多的案例。

简而言之,(假设这些数字具有可比性),它似乎确实偏高,可能值得进一步调查。但是您不一定需要调用随机机会以外的任何特殊因素来解释差异。

编辑添加:根据 EpiGrad 的评论,我添加了一张图片,显示如果我们不确定每 10 万例 1.6 例的基线概率,这些概率会如何变化。红点是我在上面列出的值,点云表示如果

对于此示例,我使用 对 beta 分布中的基线进行采样rbeta(1000, 1.6, 100000 - 1.6),平均每 100k 有 1.6 个案例,并且两边都有一些分布,但不低于 0。分布的数量可能合理,也可能不合理,具体取决于什么你想做的假设。我的直觉是我包含了比我应该拥有的更多的变化,但谁知道呢。

从图中可以看出,如果英国的数据大大低估了日本在福岛事故之前的“真实”癌症发病率,我们可能会在 20% 的时间内看到每 38k 例 3 例。您是否认为这可能取决于此问题范围之外的其他信息,包括我是否从英国的估计中包含了适当数量的不确定性。