Wiki 给出了 KNN 的定义
在模式识别中,k-最近邻算法(k-NN)是一种用于分类和回归的非参数方法。在这两种情况下,输入都包含特征空间中最接近的 k 个训练样本。输出取决于 k-NN 是用于分类还是回归:
- 在 k-NN 分类中,输出是一个类成员。一个对象通过其邻居的多次投票进行分类,该对象
被分配到其 k 个最近邻居中最常见的类别(k 是一个正整数,通常很小)。如果 k = 1,则对象被简单地分配给该单个最近邻居的类。- 在 k-NN 回归中,输出是对象的属性值。该值是 k 个最近邻值的平均值。
k-NN 是一种基于实例的学习或惰性学习,其中函数仅在本地近似,所有计算都推迟到分类。
对于分类和回归,一个有用的技术可以是为邻居的贡献分配权重,以便更近的邻居比更远的邻居对平均值的贡献更大。例如,一个常见的加权方案包括给每个邻居一个 1/d 的权重,其中 d 是到邻居的距离。
以及关于“加权最近邻分类器”的解释
k-最近邻分类器可以看作是为 k 个最近邻分配权重 1/k,而所有其他的权重为 0。这可以推广到加权最近邻分类器。也就是说,第 i 个最近的邻居被分配了一个权重, 和. 关于加权最近邻分类器的强一致性的类似结果也成立。
让用权重表示加权最近分类器.
服从类分布的正则条件,超额风险具有以下渐近扩展
和这个公式
在最优权重下,超额风险的渐近扩展中的主导项是
做这里的意思是大 O 符号还是别的什么?