动态计算估计平均值所需的样本数

机器算法验证 估计 样本量
2022-03-03 07:09:04

我试图通过采样估计或多或少的高斯分布的平均值。我没有关于它的平均值或方差的先验知识。每个样品的获取都是昂贵的。如何动态决定需要多少样本才能获得一定程度的置信度/准确度?或者,我如何知道何时可以停止取样?

我能找到的所有此类问题的答案似乎都假定对方差有所了解,但我也需要在此过程中发现这一点。其他人则倾向于进行民意调查,而我(我是初学者)不清楚这是如何概括的——我的意思不是 [0,1] 等。

我认为这可能是一个简单的问题,答案是众所周知的,但是我的 Google-fu 让我失望了。即使只是告诉我要搜索什么也会有所帮助。

2个回答

您需要搜索“贝叶斯自适应设计”。基本思路如下:

  1. 您为感兴趣的参数初始化先验。

    在收集任何数据之前,您的先验知识将是分散的。随着附加数据的进入,您将先验重新设置为与“到该时间点之前的先验+数据”相对应的后验。

  2. 收集数据。

  3. 根据数据+先验计算后验。如果您实际收集其他数据,则后验将用作步骤 1 中的先验。

  4. 评估是否满足您的停止标准

    停止标准可能包括类似 95% 的可信区间不应大于±ϵ感兴趣的参数的单位。您还可以拥有与感兴趣的参数相关联的更正式的损失函数,并根据感兴趣的参数的后验分布计算预期损失。

然后重复第 1、2 和 3 步,直到满足第 4 步的停止条件。

您通常需要至少 30 个来调用中心极限定理(尽管这有点武断)。与使用二项式分布建模的民意调查等情况不同,您无法事先确定样本量,以保证高斯过程的准确性 - 这取决于您获得的残差决定了标准误差。

应该注意的是,如果你有一个稳健的抽样策略,你可以获得比使用大得多的样本量和糟糕的策略更准确的结果。