将 Bagging 与最近邻分类器一起使用是否毫无意义?

机器算法验证 k-最近邻 装袋
2022-03-08 18:52:50

在书 [1] 的第 485 页中,注意到“将最近邻分类器装袋是没有意义的,因为如果训练数据受到采样的干扰,它们的输出变化很小”。这对我来说很奇怪,因为我认为 KNN 方法在较小时具有高方差(例如对于等于 1 的最近邻方法),这使得它非常适合 bagging。这种直觉有​​什么问题?KK

[1] 维滕,伊恩 H.,等人。数据挖掘:实用的机器学习工具和技术。摩根考夫曼,2016 年。

1个回答

在关于 bagging 的原始论文中 Breiman 提到了这一点。他解释说,不稳定的学习者可能会对修改后的数据集给出不同的预测,并且可能会从 bagging 中受益。另一方面,稳定的学习者(极端一个常数)无论如何都会给出非常相似的预测,所以 bagging 无济于事。

他还提到了具体的算法稳定性:

Breiman [1994]对不稳定性进行了研究,指出神经网络、分类和回归树以及线性回归中的子集选择是不稳定的,而k-最近邻方法是稳定的。

Breiman [1994] 是“Breiman,L.(1994)Heuristics of stability in model selection,Technical Report, Statistics Department, University of California at Berkeley”。

我认为 Breiman 将技术报告扩展到模型选择中的不稳定性和稳定性启发式方法,但他几乎没有提到 knn。

我你的直觉是正确的。k越低,模型越不稳定。我们修改数据集的次数越多,使用不同邻居集的概率就越高。如果您取 k=1 并充分修改数据集,以使获得相同邻居的概率小于 80%,则 bagging 应该会有所帮助。我认为 Breiman 的用例是更高的 k 和更精细的修改。如果你有 10 个 k 并且有 99% 的相同邻居的概率,结果将非常稳定。