我正在训练一个随机森林,试图预测未来商店在地理区域的市场份额。对于这些领域,我有很多功能,其中一些功能可以说明一件事情的相似但不同的事情。
例如,我知道总数accommodations在该地区,我还有 5 个其他列,它们都以下列方式链接:
main accommodations+secondary accommodations+holiday accommodations=houses+flats=accommodations
我觉得将它们全部包含在我的模型中是错误的......但包括它们可能很重要......关于我应该如何处理这个问题的任何提示?
包括在内是个好主意吗accommodations作为绝对值并包括所有其他五个,但作为百分比(accommodations) 而不是绝对值?
以类似的方式,我也有households该地区的total income该地区的,以及average income该地区的家庭(因此households∗average income=total income)。我感觉使用平均值而不是总收入会更好,但我怎么能确定我是对的?
(我想我可以只使用平均收入、只使用总收入和两者来训练三个随机森林,看看它们在交叉验证中的表现如何,但有没有我应该知道的经验法则可以让我走得更快?)
(如果它是相关的,我正在使用R和randomForest包)