机器算法验证 - 为什么需要在 KNN 中缩放数据 - 吾爱随笔录

为什么需要在 KNN 中缩放数据

机器算法验证 k-最近邻

2022-01-27 15:50:01

有人可以向我解释为什么在使用 K 最近邻时需要对数据进行归一化。

我试着查了一下，但我似乎仍然无法理解。

我找到了以下链接：

https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715

但是在这个解释中，我不明白为什么其中一个特征的更大范围会影响预测。

4个回答

k-最近邻算法依赖于基于给定测试点的“k”个最近样本的类成员资格的多数投票。样本的接近度通常基于欧几里得距离。

考虑一个简单的两类分类问题，其中选择 1 类样本（黑色）及其 10 个最近邻（填充绿色）。在第一个图中，数据没有被标准化，而在第二个图中是。

请注意，如果没有归一化，所有最近的邻居如何以较小范围的轴方向对齐，即 $x_1$ 导致分类错误。

标准化解决了这个问题！

假设您有一个数据集（m 个“示例”乘 n 个“特征”），并且除一个特征维度之外的所有特征维度的值都严格介于 0 和 1 之间，而单个特征维度的值范围从 -1000000 到 1000000。当采用欧式距离时在成对的“示例”之间，介于 0 和 1 之间的特征维度的值可能会变得无信息，并且该算法将基本上依赖于其值大得多的单个维度。只需计算一些示例欧几里得距离计算，您就可以了解比例如何影响最近邻计算。

如果特征的规模非常不同，则需要归一化。这是因为在 KNN 中完成的距离计算使用了特征值。当一个特征值大于另一个时，该特征将主导距离，因此是 KNN 的结果。

请参阅 gist.github.com 上的示例

特定要素相对于其他要素的比例越大，该要素在距离计算中的权重就越大。将所有要素缩放到一个共同的比例，使每个要素在距离计算中具有相同的权重。但是请注意，缩放在距离函数上引入了一个特定的权重，那么我们怎么能假设它在某种程度上是 KNN 的正确权重呢？所以我的回答是：不应该假设缩放是一个要求。

其它你可能感兴趣的问题

上一篇如何检查我的数据是否符合指数分布？下一篇平均值加一个标准差会超过最大值吗？