德国坦克问题中的老化数据

机器算法验证 估计 小样本 趋势
2022-04-11 06:21:55

德国坦克问题是关于从序列号的随机样本中估计一组对象的总大小。

它可以简单地通过以下方式完成:

Nm+mk1

在哪里m是观察到的最高序列号,并且k是样本数。

我想找到增长率(假设是线性的),这很容易通过将旧的估计值与新的估计值进行比较来找到。

然而:

最新的估计应该部分考虑较旧的数据。

假设我昨天观察了几个序列号,今天观察了几个,我想找到增长。天真的解决方案是对每一天进行独立估计,然后进行比较。但很明显,昨天的观察对于新的估计也很有价值,例如,如果观察到的最高序列号更高。

我如何解释老化的数据,同时仍然补偿它来自较少的序列号的事实?

澄清编辑:

这是指原始坦克估计问题,假设新坦克的产量是恒定的(每天添加相同的数量)。负生产是不可能的,车辆的潜在损失被忽略。我正在寻找的是一种生产率不变的模型,尽管欢迎进行概括。

这归结为:给定不同日期的罐序列号观察列表,我如何找到生产率?

1个回答

一种合理的方法可能是通过始终使用可用的最大时间段来估计生产率。也就是说,创建一个估计N每天,但使用今天的估计值以及第 1 天的估计值和经过的天数来获得估计的生产率。

为了i2,你的一天i增长率估计G^将会

G^=Ni^N1^i1

这个想法类似于观察随机过程并将速率估计为观察事件的数量除以总时间。

因为你的每日估计Ni^对坦克的总数是无偏的,差Ni^N1^对于该时间段内生产的坦克数量以及您的总体生产率估计值是无偏的G^也会不偏不倚。

确实,您可以在早期得到负估计。因此,您必须决定是否要将这些限制为零或使用其他方法来处理这些情况。

请注意,仅当抽样没有替换时,您的估计器才是无偏的。如果您的抽样是有替换的,您将需要考虑另一个估算器。