计算科学 - 了解 Welford 在线算法的必要性 - 吾爱随笔录

我对 Wikipedia 条目讨论许多用于计算样本方差的在线算法感到困惑，包括Welford 的在线算法。

特别是样本方差 $s_n^2$ 可以从样本中计算 $\{X_1,..,X_n\}$ 作为：

x_{n} = \frac{n - 1}{n} x_{n - 1} + \frac{1}{n} X_{n}

$x_n = \frac{n-1}n x_{n-1} + \frac 1n X_n$

s_{n}^{2} = \frac{n - 2}{n - 1} s_{n - 1}^{2} + \frac{1}{n} (X_{n} - x_{n - 1})^{2}

$s_n^2=\frac{n-2}{n-1}s_{n-1}^2+\frac 1n(X_n-x_{n-1})^2$ 需要注意的是

这些公式存在数值不稳定性，因为它们反复从一个随 n 缩放的大数中减去一个小数。

我可以看到，因为 $n\to\infty$ 第一项是方差的顺序，而第二项是 0。我可以看到浮点数的有限精度引起的数值问题。

该条目继续认为 Welford 的在线算法旨在解决此问题：

M_{n}^{2} = M_{n - 1}^{2} + (X_{n} - x_{n}) (X_{n} - x_{n - 1}), s_{n}^{2} = \frac{M_{n}^{2}}{n - 1} .

$M^2_n = M^2_{n-1}+(X_n-x_n)(X_n-x_{n-1}),\qquad s^2_n=\frac{M^2_n}{n-1}.$

我的问题是：它是如何解决的？我没有看到它发生。 $M_{n-1}^2$ 是看起来像第二个的项的总和，所以不仅容易溢出，而且相对于第二项变得太大，最终可能会小于最后一位 $M_{n-1}^2$ . 在我看来，除了冒浮点溢出的风险之外，没有取得任何改进。