我正在模拟一个极其罕见的事件(在高吸收材料中检测加权光子包)。例如,我可以模拟 1e9 个光子的传输,只检测到其中的 10 个(它们的权重从到 1 不等)。我正在计算这种发生的平均值(什么是的平均值,其中是接收到的光子的权重,是发射的数量光子)并为此设置置信区间。我的理解是,总体平均值位于的一个标准正态偏差内,其中是样本平均值,是样本方差,是样本数。
我的问题是,我怎么知道我什么时候收到了足够的“阳性”样本,或者收到了光子,才能得到准确的估计?由于我处理的概率如此之小,因此样本总数非常高,并且将始终很小。我看过笔记说 CLT 只适用于样本大小 > 30,但这适用于这样的事情吗?即 > 30?
摘要:我正在从未知分布中抽取样本并计算它们的平均值。样本值的范围从 0 到 1,其中 0 更为常见。我正在计算平均值(非常接近于 0),我想对此设置一个置信区间。
编辑根据我上面的描述,有两种方法可以考虑这个问题。第一个是是/否结果的二项分布(是,收到;否,未收到)。然而,更复杂且在实践中更有用的分布在某种程度上是加权二项式(不确定这是否是正确的术语),其中每个接收到的光子“数据包”都有与之相关的功率,范围从 0 到 1 .这就是我最关心的情况是置信区间。即我的样本值将主要为 0,其中少量样本的值为 0 < x <= 1
编辑 2 PDF 看起来像下面的粗图。请注意,它不是按比例缩放的——0 权重将比非零权重多得多。这是样本的示例pdf。在我做实验之前,我不知道这会是什么样子——我只知道我的样本范围是 0 到 1,主要是 0。

编辑 3 “重量”一词似乎有点误导。“样本值”或“功率”可能是一个更好的术语。我的模拟跟踪光子在水中的运动。大多数光子永远不会到达接收器,因此其功率为 0。当光子在水中移动时,它们的功率会降低(模拟一组光子在移动时一部分被吸收)。当这些光子被接收时,它们的权重范围从最大值 1(没有旅行损失)到接近 0 的数字。