决策树存在高方差。随机森林被建议作为一种集成 DT 来解决这个问题的方法,并且被证明在几个问题上表现良好。
k-NN 也是高偏差分类器,因此理论上可以对它们使用相同的方法。但是我还没有听说太多关于 k-NN 学习器的集合。
是否有一个原因?k-NN 可以集成吗?如果不是,为什么?
决策树存在高方差。随机森林被建议作为一种集成 DT 来解决这个问题的方法,并且被证明在几个问题上表现良好。
k-NN 也是高偏差分类器,因此理论上可以对它们使用相同的方法。但是我还没有听说太多关于 k-NN 学习器的集合。
是否有一个原因?k-NN 可以集成吗?如果不是,为什么?
当然,k-NN 可以集成。例如,您可以使用重采样来生成不同的模型(例如使用随机森林),或者您可以改变 N,或者您可以使用不同的函数来计算距离。但是,我的经验是,k-NN 很少在高维问题上做得很好,所以它只是一个坏模型的集合,相对于一个好的模型的集合来说,它不会做得很好。
我看到了从最简单到更复杂的四种抽象方法。
通过应用-NN 在不同的随机投影潜在空间或其他(例如神经网络自动编码器潜在空间)中并将它们组合起来。那是:
应用不同的协同过滤分数,例如。平均距离、平均距离、最大值或任何其他线性组合,例如:(仅适用于未经监督的学习),然后将它们类似地结合起来。
使用不同的邻居箱,例如 bin_1:第 1-10 k 个邻居,bin_2:第 10-20 个。并结合 bin_number 的分数-NN。
不同的距离定义(minkowski、manhatan 等)希望它有所帮助