将置信区间置于非常罕见事件的平均值上

机器算法验证 置信区间 采样 方差 中心极限定理
2022-04-01 20:46:26

我正在模拟一个极其罕见的事件(在高吸收材料中检测加权光子包)。例如,我可以模拟 1e9 个光子的传输,只检测到其中的 10 个(它们的权重从到 1 不等)。我正在计算这种发生的平均值(什么是的平均值,其中是接收到的光子的权重,是发射的数量光子)并为此设置置信区间。我的理解是,总体平均值位于的一个标准正态偏差内,其中是样本平均值,0+wreceived/NtransmittedwreceivedNtransmittedμx¯±SN/Nx¯SN是样本方差,是样本数。N

我的问题是,我怎么知道我什么时候收到了足够的“阳性”样本,或者收到了光子,才能得到准确的估计?由于我处理的概率如此之小,因此样本总数非常高,并且将始终很小。我看过笔记说 CLT 只适用于样本大小 > 30,但这适用于这样的事情吗? > 30?NSN/NNreceived

摘要:我正在从未知分布中抽取样本并计算它们的平均值。样本值的范围从 0 到 1,其中 0 更为常见。我正在计算平均值(非常接近于 0),我想对此设置一个置信区间。

编辑根据我上面的描述,有两种方法可以考虑这个问题。第一个是是/否结果的二项分布(是,收到;否,未收到)。然而,更复杂且在实践中更有用的分布在某种程度上是加权二项式(不确定这是否是正确的术语),其中每个接收到的光子“数据包”都有与之相关的功率,范围从 0 到 1 .这就是我最关心的情况是置信区间。即我的样本值将主要为 0,其中少量样本的值为 0 < x <= 1

编辑 2 PDF 看起来像下面的粗图。请注意,它不是按比例缩放的——0 权重将比非零权重多得多这是样本的示例pdf。在我做实验之前,我不知道这会是什么样子——我只知道我的样本范围是 0 到 1,主要是 0。

样本值的示例 PDF

编辑 3 “重量”一词似乎有点误导。“样本值”或“功率”可能是一个更好的术语。我的模拟跟踪光子在水中的运动。大多数光子永远不会到达接收器,因此其功率为 0。当光子在水中移动时,它们的功率会降低(模拟一组光子在移动时一部分被吸收)。当这些光子被接收时,它们的权重范围从最大值 1(没有旅行损失)到接近 0 的数字。

2个回答

对于罕见事件,二项式比例的置信区间的正态近似值非常糟糕,并且关于样本大小的经验法则不一致且不可靠。更好的方法同样容易计算(即您单击按钮!),因此任何人都没有理由使用正态近似值。曾经。

快速浏览一下下面的论文(然后使用 Wilson 的方法)。

沃尔塞特。二项式比例的置信区间。统计学家。医学。(1993 年)卷。12 (9) pp. 809-24 Brown 等人。二项式比例的区间估计。统计科学 (2001) 第 101-117 页http://www.jstor.org/stable/2676784

另请参阅此列表中的一些先前问题: 如何报告比例的不对称置信区间?离散函数:置信区间覆盖? 以及解释置信区间的说明?

现在很明显你有一个加权函数,我建议你使用贝叶斯区间(通常称为可信区间),加权函数是先验的。将其乘以结果提供的似然函数得到后验。任何包含该后验分布下面积的 95% 的区间都是 95% 的可信区间。

似然函数很容易计算:从一个统一的 (0,1) 开始,表示没有数据,因此没有证据。对于接收到的每个光子,将分布乘以 y=x,对于每个发送但未接收到的光子,将分布乘以 y=1-x。当您为所有发送的光子完成此操作后,您将拥有代表数据中固有证据的似然函数。如果您愿意,您可以将其缩放到最大 1 以看起来很传统。[当然,y 代表可能性,x 是每次试验成功的假设概率。]

似然函数有一个公式,但我发现以我在这里表达的方式更容易理解。