标准化(除以标准差)背后的原因是什么?

机器算法验证 标准化
2022-03-19 22:25:44

为什么将数据集除以 sigma 会使样本方差等于 1?为简单起见,假设均值为零。

这背后的直觉是什么?

除以范围(最大-最小)具有直观意义。但标准偏差没有。

2个回答

这源于方差的性质。对于随机变量X和一个常数a,var(aX)=a2var(x). 因此,如果将数据除以其标准差 (σ),var(X/σ)=var(X)/σ2=σ2/σ2=1.

标准化只是改变单位,所以它们是“标准偏差”单位。标准化后,值 1.5 表示“1.5 个高于 0 的标准差”。如果标准差是 8,这相当于说“12 点高于 0”。

一个例子:在将英寸转换为英尺(在美国)时,您将英寸数据乘以转换因子,1foot12inches,这是因为 1 英尺等于 12 英寸,因此您实际上只是将数据点乘以 1 的花哨版本(即分子和分母相等的分数)。例如,要从 72 英寸到英尺,你可以72inches×1foot12inches=6feet.

将分数从原始单位转换为标准差单位时,将原始单位的数据乘以转换因子1sdσpoints. 因此,如果您的分数为 100 且标准差 (σ) 是 20,你的标准化分数是100points×1sd20points=5sd. 标准化只是改变单位。

更改数据集的单位不会影响它的分散程度;您只需更改您正在使用的传播度量单位,以便它们匹配。因此,如果您的原始数据的标准差为 20 个点,并且您更改了单位,使 20 个原始点等于 1 个新的标准化单位,那么新的标准差为 1 个单位(因为 20 个原始单位等于 1 个新单位)。