加权 KNN 背后的逻辑

数据挖掘 k-nn
2022-03-10 09:55:02

我正在阅读有关 KNN 的信息

在此处输入图像描述

在此处输入图像描述

所以我又做了一个例子让事情更清楚

在这个例子中(附图片)

在此处输入图像描述

你可以看到总共有 5 个贪婪圈和 20 个蓝色方块

通过标准 KNN (k=3) ,X 应该是蓝色方块

这很明显是 2 个蓝色方块与 1 个绿色圆圈。

但在加权 KNN 中,情况有所不同

在这种情况下,我们必须计算每个实例的权重(可能性)

每个绿圈可能性是15,我们有 5 个绿色圆圈

而对于 Blue Squares 它是 120,我们有 20 个蓝色方块

因此 X 周围的权重将是15 绿圈和220蓝色方块。

意思是15>220

那么X是绿圈

但是,如果尝试从逻辑上思考它,那么蓝色方块比绿色圆圈多,这意味着 X 更有可能是蓝色方块而不是绿色圆圈。

我的问题是:

我在这里做错什么了吗?有人可以解释为什么等式显示绿色圆圈而逻辑显示蓝色正方形吗?

1个回答

从逻辑上讲,我认为“X 是绿圈”是一个合理的结论。我发现您问题中论文中的想法与本文非常相似:KRNN: k Rare-class Nearest Neighbor Classification

直观地说,例如,如果一个新数据点接近一个稀有类'点和一个普通类'点,则它更有可能属于稀有类。

这里没有冲突,因为一个数据点更可能接近一个普通类的点。然而,一旦它已经接近一个稀有类的数据点,它就更有可能属于这个类。

也就是说,我没有检查你的计算,我只是不认为“X 是绿圈”的结论对于这个算法是不合逻辑的。

[更新]

重新考虑这个问题后,我认为加权 kNN 想要强调稀有类数据点,因为那是感兴趣的类(例如异常检测)。

Accuary 可能不是这里的指标,而是加权准确度指标,它更严厉地惩罚错误分类的稀有类数据点,以便我们可以检测到更多稀有类数据点。