使用随机森林对多少特征进行采样
数据挖掘
统计数据
随机森林
优化
评估
采样
2021-10-06 01:12:42
1个回答
我认为在原始论文中他们建议使用 ),但无论哪种方式,想法如下:
随机选择的特征的数量可以通过两种方式影响泛化误差:选择许多特征会增加单个树的强度,而减少特征的数量会导致树之间的相关性降低,从而增加整个森林的强度。
有趣的是,Random Forests (pdf) 的作者发现了分类和回归之间的经验差异:
回归和分类之间一个有趣的区别是,随着使用的特征数量的增加,相关性的增加非常缓慢。
因此,对于回归经常 推荐,它给出的值大于 .
一般来说,没有明确的理由 或者 对于除此之外的分类问题,它表明树木之间较低的相关性可以减少泛化误差,足以抵消单个树木强度的下降。特别是,作者指出,这种权衡可以减少泛化误差的范围非常大:
中间范围通常很大。在这个范围内,随着特征数量的增加,相关性增加,但 PE*(tree) 通过减少来补偿。
(PE* 是泛化误差)
正如他们在统计学习要素中所说:
在实践中,这些参数的最佳值将取决于问题,它们应该被视为调整参数。
您的问题可能取决于的一件事是分类变量的数量。如果您有许多被编码为虚拟变量的分类变量,通常增加参数是有意义的。同样,来自随机森林论文:
当许多变量是分类变量时,使用低 [特征数量] 会导致低相关性,但也会导致低强度。[特征数量]必须增加到大约两到三倍以获得足够的强度来提供良好的测试集精度。
其它你可能感兴趣的问题