如何计算离散区间覆盖率?
我知道该怎么做:
如果我有一个连续模型,我可以为每个预测值定义一个 95% 的置信区间,然后查看实际值在置信区间内的频率。我可能会发现我的 95% 置信区间只有 88% 的时间覆盖了实际值。
我不知道该怎么做:
我如何为离散模型执行此操作,例如泊松或伽马泊松?我对这个模型的看法如下,只进行一次观察(我计划生成的超过 100,000 个:)
观察#:(任意)
预测值:1.5
0的预测概率:.223
1的预测概率:0.335
2的预测概率:.251
3的预测概率:0.126
4的预测概率:0.048
5 的预测概率:0.014 [和 5 或更多是 0.019]
...(ETC)
100 的预测概率(或其他不切实际的数字):0.000
实际值(整数,如“4”)
请注意,虽然我在上面给出了泊松值,但在实际模型中,预测值 1.5 可能具有不同的预测概率,即 0,1,...100。
我对这些值的离散性感到困惑。“5”显然在 95% 区间之外,因为在 5 及以上只有 0.019,小于 0.025。但是会有很多 4 —— 单独它们在里面,但是我如何更合适地联合评估 4 的数量呢?
我为什么在乎?
我正在研究的模型被批评为在总体水平上是准确的,但给出的个体预测很差。我想看看糟糕的个人预测比模型预测的固有宽置信区间差多少。我预计经验覆盖率会更差(例如,我可能会发现 88% 的值位于 95% 的置信区间内),但我希望只会更糟。