离散函数:置信区间覆盖?

机器算法验证 置信区间 离散数据
2022-03-05 20:29:47

如何计算离散区间覆盖率?

我知道该怎么做:

如果我有一个连续模型,我可以为每个预测值定义一个 95% 的置信区间,然后查看实际值在置信区间内的频率。我可能会发现我的 95% 置信区间只有 88% 的时间覆盖了实际值。

我不知道该怎么做:

我如何为离散模型执行此操作,例如泊松或伽马泊松?我对这个模型的看法如下,只进行一次观察(我计划生成的超过 100,000 个:)

观察#:(任意)

预测值:1.5

0的预测概率:.223

1的预测概率:0.335

2的预测概率:.251

3的预测概率:0.126

4的预测概率:0.048

5 的预测概率:0.014 [和 5 或更多是 0.019]

...(ETC)

100 的预测概率(或其他不切实际的数字):0.000

实际值(整数,如“4”)

请注意,虽然我在上面给出了泊松值,但在实际模型中,预测值 1.5 可能具有不同的预测概率,即 0,1,...100。

我对这些值的离散性感到困惑。“5”显然在 95% 区间之外,因为在 5 及以上只有 0.019,小于 0.025。但是会有很多 4 —— 单独它们在里面,但是我如何更合适地联合评估 4 的数量呢?

我为什么在乎?

我正在研究的模型被批评为在总体水平上是准确的,但给出的个体预测很差。我想看看糟糕的个人预测比模型预测的固有宽置信区间差多少。我预计经验覆盖率会更差(例如,我可能会发现 88% 的值位于 95% 的置信区间内),但我希望只会更糟。

1个回答

Neyman 置信区间不会尝试在任何特定区间的情况下提供参数的覆盖范围。相反,从长远来看,它们覆盖了所有可能的参数值。从某种意义上说,他们试图以牺牲局部准确性为代价来获得全局准确性。

二项式比例的置信区间清楚地说明了这个问题。对区间的 Neymanian 评估会产生像这样的不规则覆盖图,这是针对 n=10 二项式试验的 95% Clopper-Pearson 区间:

Clopper-Pearson 覆盖图

有一种替代方法可以进行覆盖,我个人认为这种方法更直观且(因此)有用。可以根据观察到的结果指定区间的覆盖率。该覆盖范围将是本地覆盖范围。下图显示了计算二项式比例置信区间的三种不同方法的局部覆盖率:Clopper-Pearson、Wilson 分数和产生与具有一致先验的贝叶斯区间相同的区间的条件精确方法:

三种区间的条件覆盖

请注意,95% Clopper-Pearson 方法提供了超过 98% 的局部覆盖率,但确切的条件间隔是准确的。

考虑全局和局部间隔之间差异的一种方法是将全局视为 Neyman-Pearson 假设检验的反转,其中结果是在考虑当前的长期错误率的基础上做出的决定实验作为可能运行的所有实验的全局集合的成员。局部区间更类似于 Fisherian 显着性检验的反演,该检验产生一个 P 值,该值代表该特定实验中针对零值的证据。

(据我所知,全球统计数据和本地统计数据之间的区别首先是在 Claire F Leslie(1998)的一篇未发表的硕士论文中提出的。缺乏信心:对 Neyman-Pearson 理论的某些反例的压制研究统计推断,特别参考置信区间理论。该论文由墨尔本大学的 Baillieu 图书馆持有。)