数据挖掘 - 在随机森林中，如果我添加相关的特征会发生什么？ - 吾爱随笔录

我正在训练一个随机森林，试图预测未来商店在地理区域的市场份额。对于这些领域，我有很多功能，其中一些功能可以说明一件事情的相似但不同的事情。

例如，我知道总数 $accommodations$ 在该地区，我还有 5 个其他列，它们都以下列方式链接：

$main \space accommodations + secondary \space accommodations + holiday \space accommodations = houses + flats = accommodations$

我觉得将它们全部包含在我的模型中是错误的......但包括它们可能很重要......关于我应该如何处理这个问题的任何提示？

包括在内是个好主意吗 $accommodations$ 作为绝对值并包括所有其他五个，但作为百分比（ $accommodations$ ) 而不是绝对值？

以类似的方式，我也有 $households$ 该地区的 $total \space income$ 该地区的，以及 $average \space income$ 该地区的家庭（因此 $households * average \space income = total \space income$ ）。我感觉使用平均值而不是总收入会更好，但我怎么能确定我是对的？

（我想我可以只使用平均收入、只使用总收入和两者来训练三个随机森林，看看它们在交叉验证中的表现如何，但有没有我应该知道的经验法则可以让我走得更快?)

（如果它是相关的，我正在使用R和randomForest包）