机器算法验证 - 为什么不使用模数来表示方差？ - 吾爱随笔录

为什么不使用模数来表示方差？

机器算法验证方差标准差平均绝对偏差

2022-04-17 02:11:47

我试图围绕方差定义来思考。

给定一组值S和n = #(S)，方差定义为：

var (S) = \frac{\sum_{i = 1}^{n} (S_{i} - mean (S))^{2}}{n}

$\operatorname{var}(S) = \frac{\sum_{i=1}^n( S_i - \operatorname{mean}(S) )^2} n$

其平方根（标准差）衡量的是这些值与平均值的平均距离。

但是，有一个更简单的公式也可以测量值与平均值的距离：

another Possible Def For Var (S) = \frac{\sum_{i = 1}^{n} | S_{i} - mean (S) |}{n}

$\operatorname{another Possible Def For Var}(S) = \frac{\sum_{i=1}^n|S_i - \operatorname{mean}(S)|}{n}$

我试图理解我们使用平方根而不是更简单的模块函数这一事实背后的原因。是否有真正的原因为什么以第一种方式而不是第二种方式定义方差？

＃编辑＃

好的，看起来到目前为止给定的原因比我预期的要先进得多。

平方它而不是取模数的论点说模数使数学更复杂是有效的，但更多的是定义的结果，而不是它被定义为恕我直言的原因。中心极限定理也是如此。

我最终在可汗学院找到了完全相同的问题。在那里，还给出了以下原因：

“平方强调更大的差异（想想异常值的影响）。” 另一条评论还指出：“除了放大均值的较大差异外，平方还可以最小化均值的微小差异”。

这些是迄今为止我发现的最有说服力的理由。模数不会强调大值，也不会最小化小值。然而，同样的论点适用于任何偶数幂。4 的幂也会放大较大的差异并最小化微小的差异（实际上它会在这些方面做得更好）。那么为什么不采用 4 的幂呢？（或任何其他偶数）。

“（...）您还可以将方程视为所有点之间的欧几里得距离和点的平均值”

对我来说，这更像是“拥有”而不是理由。如果有的话，这些模块会给出曼哈顿距离。所以呢？

说了这么多，我还不是100%相信。我相信这个问题比乍一看要深得多，而且从可汗学院的投票数来看，我并不是唯一一个对此感到困惑的人。

2个回答

让 $\mu=\operatorname{E}(X).$

使用的主要原因 $\sqrt{\operatorname{var}(X)} = \sqrt{\operatorname{E}((X-\mu)^2)}$ 作为离散度的度量，而不是使用平均绝对偏差 $\operatorname{E}(|X-\mu|),$ 是如果 $X_1,\ldots,X_n$ 是独立的，那么

\begin{matrix} (1) & var (X_{1} + \dots + X_{n}) = var (X_{1}) + \dots + var (X_{n}) . \end{matrix}

$\operatorname{var}(X_1+\cdots+X_n) = \operatorname{var}(X_1)+\cdots+\operatorname{var}(X_n). \tag 1$ 没有类似的方法适用于平均绝对偏差。例如，尝试使用

X_{1}, X_{2}, X_{3}, \sim i . i . d . Bernoulli (1 / 2) .

$X_1,X_2,X_3,\sim\operatorname{i.i.d.} \operatorname{Bernoulli}(1/2).$

在任何使用中心极限定理的问题中，都需要这个。

例如：抛硬币时出现正面数量的标准差是多少 $900$ 次？这很容易找到，因为 $(1).$

这里已经有几个很好的答案，包括在评论中。但是，由于 OP 要求“更简单”的理由，我将在这里扩展我的评论。

对我来说，这是均方根与平均绝对偏差之间的一个非常自然的区别，以及为什么我们在测量离散度时可能更喜欢一个与另一个。（不知道是不是“更简单”？）

假设你有一些数据 $x_1,\ldots,x_n$ ，你想用一个常数来近似 $c$ ， IE

x_{i} \approx c

$x_i\approx c$ 对所有人

i

$i$ .

你如何选择常数？一种常见的方法是尽量减少一些错误 $E[c]$ .

一种选择 $E$ 是平方和误差

E_{SSE} = \sum_{i} (x_{i} - c)^{2}

$E_\text{SSE}=\sum_i\big(x_i-c\big)^2$ 解决方案将是

c_{min} = \frac{1}{n} \sum x_{i}

$c_\min=\frac{1}{n}\sum x_i$ . 换句话说，我们有

[c_{min}, E_{min}]_{SSE} = [mean (x), n var (x)]

$\big[c_\min,E_\min\big]_\text{SSE}=\big[\text{mean}(\mathbf{x}),n\,\text{var}(\mathbf{x})\big]$ 因此，如果您使用平均值作为集中趋势的度量，则 RMS 误差实际上是分散的“自然”度量。

另一方面，如果我们选择 $E$ 是总和绝对误差

E_{SAE} = \sum_{i} | x_{i} - c |

$E_\text{SAE}=\sum_i\big|x_i-c\big|$ 解决方案将是

(c_{min})_{SAE} = median (x)

$(c_\min)_\text{SAE}=\text{median}(\mathbf{x})$ . 因此，如果您想使用平均绝对偏差来衡量离散度，那么集中趋势的“自然”衡量标准就是中位数。

总结：如果你想使用平均绝对偏差，那么可以说你应该测量中位数周围的离散度。如果您已经在使用mean，那么可以说标准差是适当的分散度量。这里“可以说”是由最优性（最小分散）证明的。

其它你可能感兴趣的问题

上一篇关于生成对抗网络的一些一般性问题下一篇对矩阵中的参数进行二次形式的导数

为什么不使用模数来表示方差？

＃ 编辑 ＃

＃编辑＃