我正在研究一个 Kaggle 问题(这个问题前段时间解决了,但是为了自学/练习而这样做),其中输出明显受到年份和月份的影响。
原始日期时间数据提供年/月/日/小时信息,我觉得年和月可能是唯一必要的数据。因此,我目前已经修改了该功能,使数据仅由年和月表示(例如 2016 年 3 月将是 201603),并针对由年/月对组成的修改时间变量绘制每个结果。
正如您在此处看到的,第一个结果有一些轻微的季节性波动,而第三个和第四个结果有明显的季节性趋势。另一方面,第二个结果在 2015 年 5 月 (201505) 之后急剧下降。
对于我的模型预测,我想以某种有意义的方式将时间作为变量合并。这里最好的方法是什么?我可以假设数据中最早的时间段等于 1 并每月增加 1 并将变量视为名义类别变量吗?或者是其他东西?
谢谢