随机森林最小观察次数

数据挖掘 机器学习 回归 随机森林
2022-03-13 12:00:27

我对近 8-10 个变量(其中 2 个是离散的、分类的)和单个数值目标参数进行了大约 5000-6000 次观察。根据初步评估,随机森林回归可能是当前案例的一个很好的算法。

当前的观察/变量计数是否足以满足所提出的方法?如果按照目前的描述推荐其他回归算法,请告诉我。

1个回答

重要的不是观察的数量,而是观察的质量。如果您查看 sklearn 的玩具数据集,它们会比这小得多。

当数据量较小时,随机森林是一种很好的算法,因为它是带有引导程序的决策树的装袋。每个决策树都有一个替换的数据样本,这样即使数据很小,也有更大的机会制作一个好的模型。

在高层次上,是的,这似乎是一个不错的方法,但是如果不了解更多数据,就很难说。

我建议尝试使用广义线性模型、支持向量机和梯度提升。由于您的数据很小,因此您不需要太多的计算时间。