什么时候,如果有的话,最近邻分类是最好的选择?

数据挖掘 分类
2022-03-03 08:35:06

我一直在研究 k-最近邻分类和回归的历史和使用,以及包括 kd 树和 LAESA 在内的各种调整。

我知道它很有用,因为它简单灵活,但计算量很大并且需要大量数据存储。

但这是我不知道的:

是否有任何类别的问题,最近邻分类是最好的或最好的算法之一?

我所说的“问题类别”是指基于数据结构的类别(例如,也许 KNN 非常适合混合了名义数据和数值数据的低维数据),或者是一类现实生活中的问题(也许 KNN 是可用于为保险持有人预测疾病)。

2个回答

NN 理想的一种情况是,如果数据是分段常数函数的样本点。在这种情况下,真正的函数由其域的细分组成,每个分区内的所有点都有一个恒定值。

如果我没记错的话,经典理论说它是理想的,当数据是具有恒等协方差矩阵的高斯时。然后它表现为贝叶斯(高斯)分类器,它对于 0 - 1 损失函数是最优的。

这仍然没有说明没有像之前建议的无限数据的真实数据集的行为。

实际的答案可能是,尝试将其作为第一个猜测。当它不起作用时,将 PCA 应用于您的数据(以解除您的功能的相关性)并重试。如果它仍然不起作用,请尝试其他方法。