假设我有一组值 S,并且想在数据库中存储一些关于该集合的摘要信息,以便稍后当我获得一个新值 v 时,我可以合理估计关于集合 S 的摘要信息是什么∪ {v} --- 尽管现在我无法访问 S 的原始成员。我希望摘要信息包括这些集合的均值和方差,以及所需的最少附加信息。附加信息的一个自然想法是 S 的基数。但如果需要,我愿意保存有关 S 的更复杂的信息。我的主要限制是最小化保留信息的大小。
如果我只关心集合的平均值,那么存储 S 的平均值加基数显然就足够了。我可以通过对旧平均值(乘以旧基数)和新值进行加权平均来更新新值。但我也希望能够跟踪集合的变化。一个好的估计就足够了;我不需要能够重建 S ∪ {v} 的确切均值和方差。
我希望即使问这个问题也会显示我对统计数据的幼稚,但我会很感激任何帮助。我不知道在哪里寻找答案。