机器算法验证 - k-NN 可以集成吗？ - 吾爱随笔录

机器算法验证 k-最近邻集成学习

2022-04-10 14:48:34

决策树存在高方差。随机森林被建议作为一种集成 DT 来解决这个问题的方法，并且被证明在几个问题上表现良好。

k-NN 也是高偏差分类器，因此理论上可以对它们使用相同的方法。但是我还没有听说太多关于 k-NN 学习器的集合。

是否有一个原因？k-NN 可以集成吗？如果不是，为什么？

2个回答

当然，k-NN 可以集成。例如，您可以使用重采样来生成不同的模型（例如使用随机森林），或者您可以改变 N，或者您可以使用不同的函数来计算距离。但是，我的经验是，k-NN 很少在高维问题上做得很好，所以它只是一个坏模型的集合，相对于一个好的模型的集合来说，它不会做得很好。

我看到了从最简单到更复杂的四种抽象方法。

通过应用 $k$ -NN 在不同的随机投影潜在空间或其他（例如神经网络自动编码器潜在空间）中并将它们组合起来。那是： $Ensemble(kNN_{raw},kNN_{projected})$
应用不同的协同过滤分数，例如。平均距离、平均距离、最大值或任何其他线性组合，例如： $score = w_1+d_{k_1} + w_2+d_{k_2} ...$ （仅适用于未经监督的学习），然后将它们类似地结合起来。
使用不同的邻居箱，例如 bin_1：第 1-10 k 个邻居，bin_2：第 10-20 个。并结合 bin_number 的分数 $k$ -NN。
不同的距离定义（minkowski、manhatan 等）希望它有所帮助

其它你可能感兴趣的问题