使用随机森林对多少特征进行采样

数据挖掘 统计数据 随机森林 优化 评估 采样
2021-10-06 01:12:42

引用“统计学习要素”维基百科页面说:

通常,对于一个分类问题p特征,p 每个拆分都使用特征。

我知道这是一个相当有根据的猜测,并且可能已被经验证据证实,但是还有其他原因可以选择平方根吗?那里发生了统计现象吗?

这是否有助于减少误差的方差?

回归和分类是否一样?

1个回答

我认为在原始论文中他们建议使用 日志2(ñ+1),但无论哪种方式,想法如下:

随机选择的特征的数量可以通过两种方式影响泛化误差:选择许多特征会增加单个树的强度,而减少特征的数量会导致树之间的相关性降低,从而增加整个森林的强度。

有趣的是,Random Forests (pdf) 的作者发现了分类和回归之间的经验差异:

回归和分类之间一个有趣的区别是,随着使用的特征数量的增加,相关性的增加非常缓慢。

因此,对于回归经常 ñ/3 推荐,它给出的值大于 ñ.

一般来说,没有明确的理由 ñ 或者 日志ñ对于除此之外的分类问题,它表明树木之间较低的相关性可以减少泛化误差,足以抵消单个树木强度的下降。特别是,作者指出,这种权衡可以减少泛化误差的范围非常大:

中间范围通常很大。在这个范围内,随着特征数量的增加,相关性增加,但 PE*(tree) 通过减少来补偿。

(PE* 是泛化误差)

正如他们在统计学习要素中所说:

在实践中,这些参数的最佳值将取决于问题,它们应该被视为调整参数。

您的问题可能取决于的一件事是分类变量的数量。如果您有许多被编码为虚拟变量的分类变量,通常增加参数是有意义的。同样,来自随机森林论文:

当许多变量是分类变量时,使用低 [特征数量] 会导致低相关性,但也会导致低强度。[特征数量]必须增加到大约两到三倍一世n(lG2+1)以获得足够的强度来提供良好的测试集精度。