我经常使用随机森林、正则化随机森林、引导随机森林和类似的树模型。
我正在处理的数据量已经超出了我可以使用 HPC 和并行性解决的问题。由于行长(观察)而不是列(特征),它通常很大。数据通常也不是正态分布的。
我必须在以下之间做出选择:
- 使用完整数据或相对较大的比较样本运行少量树木(即 50 棵或更少)
- 运行数倍于树的数量,但样本量相应缩小
有变通方法,对于任何一种情况——例如,我可以做一些临时测试,看看我认为哪个会更好,但我想知道是否有一个好的理论(或稳健的经验)推理要么指导方法的选择,要么描述正在做出的权衡?
换句话说,我希望对这种(类型)算法背后的数学、统计和理论更熟悉的人可以提供一些普遍的见解。