我正在做一个预测项目,其中我们有很多周期性特征,例如一天中的小时、工作日、月份、一年中的某一天等。经过一番搜索后,我决定听从这里的建议。
现在,我将每个周期性特征的 sin 和 cos 组件作为一个单独的特征,因此月份变为 month_sin 和 month_cos。但是,我不确定模型是否可以处理这种相关性,因为两个组件需要同等加权才能使该功能有意义。该模型在训练后为 sin 和 cos 分量分配不同的权重。我的直觉告诉我这很糟糕,但我不知道该怎么办。
目前 gbm (R) 给出了最好的结果。对于梯度提升模型,是在两个相关特征上强制相等的权重更好,还是让模型计算出来更好,即使它导致两个组件的权重不同?或者你会建议一种完全不同的方法吗?