我们经常通过 1) 减去每个特征的平均值和 2) 除以每个特征的标准差来对 k-means 算法的输入进行归一化。这里讨论了这背后的一些合理性:
但是假设特征不相关似乎很奇怪,所以我的问题是,为什么我们不完全白化数据呢?换句话说,如果数据具有均值和协方差,为什么不使用对每个样本进行预处理?
的维度变得非常大时,这将在计算上变得困难,例如,但还有其他原因吗?
谢谢你。
我们经常通过 1) 减去每个特征的平均值和 2) 除以每个特征的标准差来对 k-means 算法的输入进行归一化。这里讨论了这背后的一些合理性:
但是假设特征不相关似乎很奇怪,所以我的问题是,为什么我们不完全白化数据呢?换句话说,如果数据具有均值和协方差,为什么不使用对每个样本进行预处理?
的维度变得非常大时,这将在计算上变得困难,例如,但还有其他原因吗?
谢谢你。
这是一个很好的问题,对数据进行白化确实很有意义。特别是Coates 和 Ng 的一篇论文,他们讨论了这两个步骤之间的差异(除其他外)以及它们对 k-means 的影响,以便学习一些图像块字典。
正如您已经指出的那样,白化使数据去相关(最多二阶,因为您使用的是协方差矩阵)。白化提出了一些数值问题(以及归一化),标准技巧是在执行缩放时添加一些常数项(正则化)。