随机森林中的邻近度是什么意思?

机器算法验证 机器学习 随机森林
2022-02-06 22:10:15

我在随机森林中遇到了接近这个词。但我无法理解它在随机森林中的作用。它对分类有何帮助?

2个回答

术语“接近度”是指成对案例之间的“接近度”或“接近度”。

为每对案例/观察/样本点计算近似值。如果两个案例通过一棵树占据同一个终端节点,则它们的接近度增加一。在所有树的运行结束时,通过除以树的数量来归一化接近度。近似用于替换缺失的数据、定位异常值以及生成数据的启发性低维视图。

邻近地区

近似值最初形成一个 NxN 矩阵。在一棵树长大后,将所有数据(包括训练数据和 oob 数据)放到树下。如果案例 k 和 n 在同一个终端节点中,则将它们的接近度增加一。最后,通过除以树的数量来归一化近似值。

用户注意到,对于大型数据集,他们无法将 NxN 矩阵放入快速内存中。一项修改将所需的内存大小减少到 NxT,其中 T 是森林中的树木数量。为了加快计算密集型缩放和迭代缺失值替换,用户可以选择仅保留每个案例的 nrnn 个最大近似值。

当存在测试集时,还可以计算测试集中每个案例与训练集中每个案例的接近度。额外计算量适中。

引用:https ://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

请注意,《统计学习要素》的作者指出,“无论数据如何,随机森林的邻近图通常看起来非常相似,这让人怀疑它们的效用。它们往往具有星形,每个班级一个手臂,这更多表明分类性能越好。” (第 595 页)

然而,我认为这些作者并没有过多地提到随机森林处理缺失数据的方式(即使他们在本书前面提到了树的缺失数据);也许作者只是没有过多地强调 RF 的这一方面,考虑到这本书非常庞大并且包含大量机器学习主题/技术的大量信息,这是有道理的。但是,我不认为让这些图为任何 RF 和数据集提供相似的形状意味着总体上对 RF 有任何负面影响。例如,线性回归基本上看起来总是一样的,但是从线性回归的角度来看,知道哪些点靠近直线以及哪些点似乎是异常值是值得的。所以......他们关于邻近图效用的评论对我来说没有意义。