我的问题是关于 1-最近邻分类器,是关于 Hastie、Tibshirani 和 Friedman 的优秀著作 The Elements of Statistical Learning 中的一个陈述。该声明是(第 465 页,第 13.3 节):
“因为它只使用离查询点最近的训练点,1-最近邻估计的偏差往往很低,但方差很高。”
该书可在
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html获得
首先,我们可以定义什么是偏差和方差。从“如何在不增加维度的情况下增加方差”的问题中,我们得出:
“首先,分类器的偏差是其平均估计函数和真实函数之间的差异,而分类器的方差是估计的预测函数与其平均值的预期偏差(即分类器对随机函数的依赖程度)在训练集中进行采样)。
因此,偏差的存在表明模型基本上有问题,而方差也很糟糕,但具有高方差的模型至少可以平均预测得很好。”
有人可以解释一下为什么 1-最近邻分类器的方差高而偏差低吗?