正确理解压缩最近邻

数据挖掘 算法 降维
2022-03-08 13:20:35

我有一个关于压缩最近邻算法的问题:
在此处输入图像描述

为什么我要返回Z,如果我理解正确,它是所有错误分类点的数组?我不想返回正确分类的点吗?这对我返回所有错误的分数有什么好处?

1个回答

Condensed Nearest Neighbors 算法有助于减少 k-NN 分类的数据集 X。它构建了一个示例子集,能够使用 1-NN 算法对原始数据集进行正确分类。

它返回的不是错误分类点的数组,而是数据集 X 的子集 Z。

CNN 是这样工作的:

1) 扫描 X 的所有元素,寻找离 Z 最近的原型具有与 x 不同标签的元素 x

2) 从 X 中删除 x 并将其添加到 Z

3) 重复扫描,直到没有更多的原型被添加到 Z

Z 代替 X 用于 kNN 分类。

这种方法的一个优点是减少了执行时间,降低了空间复杂度