您如何称呼这种动态样本量选择策略?

机器算法验证 采样 模型选择 样本量
2022-03-30 13:16:48

想象一下,您想非常快速地评估大型文档的可压缩性。您可以随机选择一个子序列,尝试压缩它。这可以作为对文档整体可压缩性的预测。但是你的样本应该有多大?

我们提出了以下策略:

  1. 选择任意(小)样本量。测量可压缩性。
  2. 接下来,将样本大小加倍并再次测量可压缩性。如果变化很小(比如小于 10%),那么就可以断定您已经可靠地确定了文档的可压缩性。如果不是,则再次将样本量加倍,依此类推。

我们很确定这不是一个新策略,我们想知道它是否与统计学家使用的一些众所周知的策略有关。

(这里的“压缩”只是一个例子。基本上,我们对没有已知良好数学属性的度量感兴趣,因此无法通过分析确定什么是好的样本量。我们别无选择,只能跌倒回到这样的启发式。)

1个回答