我有包含 24 行每月数据的数据集。特征是 GDP、机场到达、月份和其他一些。因变量是热门旅游目的地的游客人数。随机森林适合这样的问题吗?
这些数据是非公开的,所以我无法发布样本。
我有包含 24 行每月数据的数据集。特征是 GDP、机场到达、月份和其他一些。因变量是热门旅游目的地的游客人数。随机森林适合这样的问题吗?
这些数据是非公开的,所以我无法发布样本。
随机森林基本上是对样本进行引导重采样和训练决策树,因此您的问题的答案需要解决这两个问题。
自举重采样不能治愈小样本。如果您的数据集中只有 24 个观察值,则从该数据中替换的每个样本将包含不超过 24 个不同的值。对案例进行改组并且不绘制其中一些案例不会对您学习有关基础分布的任何新内容的能力产生太大影响。所以小样本对于引导程序来说是一个问题。
决策树是通过有条件地根据预测变量(一次一个变量)拆分数据来训练的,以找到具有最大区分能力的子样本。如果您只有 24 个案例,那么假设您很幸运,并且所有拆分的大小都是均匀的,那么使用两个拆分,您最终会得到四组六个案例,如果是树拆分,则有八组三个。如果您计算样本的条件均值(预测回归树中的连续值,或决策树中的条件概率),那么您的结论只会基于这几个案例!因此,您用于做出决策的子样本甚至比您的原始数据还要小。
对于小样本,使用简单的方法通常是明智的。此外,您可以通过在贝叶斯设置中使用信息先验来赶上小样本(如果您对问题有任何合理的数据外知识),因此您可以考虑使用一些量身定制的贝叶斯模型。
一方面,这是一个小数据集,随机森林需要大量数据。
另一方面,也许有总比没有好。没有什么比“试试看”更可说的了。您可以决定任何特定模型是否“好”;此外,我们无法告诉您任何模型是否适合特定用途(您也不会希望我们这样做——如果我们错了,我们不会付出任何代价!)。