对于数据的统计分析,重采样是否比块平均更准确?

计算科学 统计数据 误差估计 分子动力学 数据分析
2021-12-10 22:42:30

我在实验室工作,分子动力学数据几乎总是用著名的 Allen 和 Tildesley 书中所述的符号块平均值进行分析。

我们将数据划分为大小块M我们在其上计算我们感兴趣的数量。我们认为对于足够大的块,波动会收敛:

s=limMMσ2(<X>M)σ2(X)
其中称为统计无效率,当 M 收​​敛到足够大时,是对不相关记录之间的间距的估计。然后,您可以评估您的统计错误: 用于运行 N 条记录。s
σ2(<X>run)=sNσ2(X)

然后我偶然发现了这套讲义,该讲义在其章节的开头明确说明了块平均是如何评估统计误差的一种简单而平庸的方法。重采样方法似乎更准确,更容易实现。

然后我有两个问题:

1)重采样方法如何成为块平均的“升级”?作者指出,这是由于块之间价值的潜在巨大变化,但在真正快速收敛到平衡的简单系统上,我仍然在引导和块平均之间存在一个数量级的差异。起始值是否足以影响统计误差评估?

2) 为什么块平均在分子动力学领域得到如此广泛的应用?我怀疑这本参考书确实传播了这种方法,但它是在重采样变得普遍使用的时候出版的。

我不确定我的任何同事曾经问过这个问题,而且我的统计分析知识太低,无法真正捍卫我的观点。

1个回答

我猜您实际上并不对方差感兴趣,而是对可观察的置信区间感兴趣。应该注意的是,仅当您使用最大似然估计器时,才能保证θθ^±2σ(θ)θ

您的“块”方法的问题在于,它以低效的方式使用数据:您在每个估计中只使用个数据点,并且只有抽样方差估计量。更有效的方差估计是 Jackknife 或 Bootstrap,它们都是导致采样方差估计量的重采样方法。Jackknife 实现起来非常简单,并且将是对您的“块”方法的改进。参考:M(n/M)<<nn

  1. Efron, Gong:“悠闲地看看 bootstrap、jackknife 和 crossvalidation。” 美国统计学家 37, pp. 36–48 (1983)
  2. Dalitz:“置信区间的构建。” 技术报告 No. 2017-01, pp. 15-28, Hochschule Niederrhein, Fachbereich Elektrotechnik und Informatik (2017)